L’équipe Alibaba Cloud Tongyi Qianwen a lancé la version Qwen3-Omni-Flash 2025-12-01, qui a considérablement amélioré les dialogues vidéo et audio, les interactions vocales et le traitement multilingue. La nouvelle version est plus proche d’un dialogue naturel lors de plusieurs phases de compréhension vidéo et audio, peut suivre en continu les changements de scène et de contexte, et prend en charge des personnalités de dialogue personnalisées via des indications système, s’adaptant à des scénarios d’application différenciés tels que le jeu de rôle et les assistants virtuels.
En termes de langage et de voix, la nouvelle version de Qwen3-Omni-Flash prend en charge 119 langues textuelles et 19 langues vocales, en se concentrant sur des capacités de dialogue multilingues plus stables et de reconnaissance, et l’effet de synthèse vocale met l’accent sur le « proche des personnes réelles », ce qui convient au chat vocal à long terme, à la création de contenu, au service client intelligent et à d’autres scénarios. La version web officielle du portail permet aux utilisateurs de vivre directement les conversations vocales et vidéo via les boutons VoiceChat et VideoChat en bas de Qwen Chat.
Cette mise à niveau ouvre à la fois des formes API en temps réel et hors ligne : API en temps réel pour le streaming des conversations vocales et l’interaction multimodale, et API hors ligne pour le traitement par lots et l’intégration locale. Les développeurs peuvent également découvrir la version de démonstration via l’espace public de Hugging Face et ModelScope, consulter la documentation et configurer les permissions d’accès sur la console Alibaba Cloud. Lors de l’utilisation, vous devez prêter attention aux quotas de compte, aux frais et à la sécurité des données vocales, et choisir le mode en ligne ou hors ligne selon les besoins de l’entreprise.
FAQ Q
: Quelle est la version Qwen3-Omni-Flash 2025-12-01 ?
R : Il s’agit d’une mise à niveau importante de Qwen3-Omni-Flash, axée sur l’amélioration de la compréhension des antivirus multi-rounds, du traitement multilingue et des capacités de synthèse vocale humaines.
Q : Quelles sont les nouveautés de cette mise à niveau ?
R : Inclut des conversations vidéo et audio plus naturelles à plusieurs tours, la personnalisation des personnalités avec des indications système, un support plus stable pour 119 langues textuelles et 19 voix, ainsi qu’une synthèse vocale plus réaliste.
Q : Comment les utilisateurs ordinaires peuvent-ils découvrir la nouvelle version de Qwen3-Omni-Flash ?
R : Vous pouvez entrer en mode conversation vocale ou vidéo sur la page web Qwen Chat via les boutons VoiceChat et VideoChat dans le coin inférieur droit de l’interface, sans installation supplémentaire.
Q : Quelle est la différence entre une API en temps réel et une API hors ligne ?
R : L’API Temps Réel se concentre sur les conversations en streaming à faible latence et les scénarios vocaux en temps réel, tandis que l’API Hors ligne est mieux adaptée au traitement par lots, aux services backend ou aux intégrations d’applications avec faible dépendance réseau.
Q : Quelles sont les considérations à prendre en compte lors de l’utilisation des capacités vocales et vidéo ?
R : Faites attention aux droits d’accès aux comptes, aux frais d’appel et à la conformité aux données, et évitez le téléchargement non autorisé de données vocales et vidéo contenant des contenus sensibles à la confidentialité personnelle ou supervisés.