Tongyi Qianwen a annoncé le lancement de Qwen3-LiveTranslate-Flash , un modèle d'interprétation simultanée multimodale en temps réel conçu pour les communications en face à face et les événements hors ligne. Les données officielles indiquent que le modèle peut effectuer la reconnaissance et la traduction avec une latence de bout en bout d'environ 3 secondes , reconnaître 18 langues , comprendre 6 dialectes et produire des paroles en 10 langues , offrant un son naturel et expressif. Ce modèle met l'accent sur une « compréhension visuelle améliorée » et peut combiner la forme des lèvres, la gestuelle, le texte à l'écran et la reconnaissance d'entités, garantissant ainsi des performances robustes dans les environnements bruyants.
Pour y accéder, Alibaba Cloud DashScope fournit l'interface Qwen3-LiveTranslate-Flash-Realtime et les instructions de limitation de débit, ainsi qu'une démonstration en ligne de Hugging Face pour une expérience simplifiée. Les sources officielles le décrivent comme une solution d'interprétation en temps réel offrant une précision comparable à celle des applications hors ligne. Les performances spécifiques varient toutefois en fonction du périphérique d'entrée, du bruit de la scène et des conditions réseau. La couverture multilingue et les mesures de latence sont soumises à la documentation produit et aux rapports techniques ultérieurs.
Questions fréquemment posées
Q : Quelles langues et sorties sont prises en charge ?
A : Reconnaît 18 langues, comprend 6 dialectes et peut produire des discours dans 10 langues ; consultez la documentation de Model Studio pour une liste complète.
Q : Qu'en est-il de la latence et de la robustesse ?
R : L’estimation officielle est d’environ 3 secondes de bout en bout. Combiner la lecture labiale, les gestes et la lecture sur écran peut améliorer la stabilité dans les environnements bruyants. Le temps réel dépend de l’appareil et du réseau.
Q : Comment l'expérimenter ou l'appeler ?
R : Vous pouvez découvrir la démo sur Hugging Face ; l'intégration de la production peut être réalisée via l'interface en temps réel d'Alibaba Cloud DashScope.
Q : Est-ce open source ?
R : Il est fourni sous la forme d'une API et son poids total n'est pas actuellement divulgué ; les exemples et démonstrations associés sont mis à jour de manière synchrone dans l'écosystème GitHub/HF/ModelScope.
Q : Quels sont les scénarios applicables ?
A : Applications en temps réel telles que la communication en face à face interlinguistique, l'interprétation de conférence, les services touristiques, le doublage de création de contenu et l'interprétation simultanée en direct.