Retour à Informations sur l’IA
Release de Qwen3.5-Omni : de la compréhension de la vidéo longue à l'interaction vocale-vidéo en temps réel

Release de Qwen3.5-Omni : de la compréhension de la vidéo longue à l'interaction vocale-vidéo en temps réel

Informations sur l’IA Admin 103 vues

Qwen3.5-Omni a été officiellement publié par Qwen. Les portails d'expérience de Qwen Chat ont déjà pointé vers VoiceChat et VideoChat. Il a pressé les outils de recherche et de réglage dans un cycle d'interaction, mais le modèle spécifique et la portée ouverte doivent être vérifiés.

Premièrement, cette mise à niveau n'est pas seulement plus capable de regarder les graphiques

Le fonctionnaire a divisé la capacité en deux lignes hors ligne et en temps réel. Les sous-titres au niveau du script hors ligne peuvent générer des scripts vidéo avec horodatage, commutation de l'objectif et cartographie de l'orateur ; le côté en temps réel met le contrôle vocal granulaire, la recherche Web et les appels de fonctions complexes dans le même ensemble d'interactions.

Deuxièmement, le plus accrocheur est le codage audio-vidéo vibe

Le codage audio-visuel vibe est officiellement mis en avant. La démonstration de base est de dire aux exigences de l'objectif. Qwen3.5-Omni-Plus génère directement des pages Web ou des jeux exécutables. Les données externes donnent également plusieurs indicateurs durs, y compris jusqu'à 10 heures d'audio, 400 secondes de vidéo 720p, 113 langues ou dialectes de reconnaissance vocale, 36 langues ou dialectes de génération vocale, et divisent la famille en trois catégories Plus, Flash et Light.

Troisièmement, comment vérifier si cette vague de capacités est à votre tour ?

Allez à Qwen Chat pour vérifier si VoiceChat ou VideoChat existe déjà dans le coin inférieur droit, puis consultez le document de développement pour confirmer si l'API hors ligne et l'entrée API en temps réel sont visibles. Si la page Web peut ouvrir directement la voix ou la vidéo en temps réel, la console peut également appeler le modèle correspondant, ce qui signifie essentiellement que ces capacités sont déjà disponibles pour le public.

Il convient de noter que la propagande officielle utilise le calibre de la famille Qwen3.5-Omni, mais le document API public est plus clair que la série Qwen-Omni et Qwen3-Omni-Flash, Realtime, et le clone vocal est toujours progressivement en phase d'ingénierie.

@

Outils Recommandés

Plus