Tongyi lance Qwen3-LiveTranslate-Flash : prend en charge la reconnaissance de 18 langues, 10 sorties vocales et 6 dialectes

Informations sur l’IA • Admin • 24/09/2025 • 72 vues

Tongyi Qianwen a annoncé le lancement de Qwen3-LiveTranslate-Flash , un modèle d'interprétation simultanée multimodale en temps réel conçu pour les communications en face à face et les événements hors ligne. Les données officielles indiquent que le modèle peut effectuer la reconnaissance et la traduction avec une latence de bout en bout d'environ 3 secondes , reconnaître 18 langues , comprendre 6 dialectes et produire des paroles en 10 langues , offrant un son naturel et expressif. Ce modèle met l'accent sur une « compréhension visuelle améliorée » et peut combiner la forme des lèvres, la gestuelle, le texte à l'écran et la reconnaissance d'entités, garantissant ainsi des performances robustes dans les environnements bruyants.

Pour y accéder, Alibaba Cloud DashScope fournit l'interface Qwen3-LiveTranslate-Flash-Realtime et les instructions de limitation de débit, ainsi qu'une démonstration en ligne de Hugging Face pour une expérience simplifiée. Les sources officielles le décrivent comme une solution d'interprétation en temps réel offrant une précision comparable à celle des applications hors ligne. Les performances spécifiques varient toutefois en fonction du périphérique d'entrée, du bruit de la scène et des conditions réseau. La couverture multilingue et les mesures de latence sont soumises à la documentation produit et aux rapports techniques ultérieurs.

Questions fréquemment posées

Q : Quelles langues et sorties sont prises en charge ?

A : Reconnaît 18 langues, comprend 6 dialectes et peut produire des discours dans 10 langues ; consultez la documentation de Model Studio pour une liste complète.

Q : Qu'en est-il de la latence et de la robustesse ?

R : L’estimation officielle est d’environ 3 secondes de bout en bout. Combiner la lecture labiale, les gestes et la lecture sur écran peut améliorer la stabilité dans les environnements bruyants. Le temps réel dépend de l’appareil et du réseau.

Q : Comment l'expérimenter ou l'appeler ?

R : Vous pouvez découvrir la démo sur Hugging Face ; l'intégration de la production peut être réalisée via l'interface en temps réel d'Alibaba Cloud DashScope.

Q : Est-ce open source ?

R : Il est fourni sous la forme d'une API et son poids total n'est pas actuellement divulgué ; les exemples et démonstrations associés sont mis à jour de manière synchrone dans l'écosystème GitHub/HF/ModelScope.

Q : Quels sont les scénarios applicables ?

A : Applications en temps réel telles que la communication en face à face interlinguistique, l'interprétation de conférence, les services touristiques, le doublage de création de contenu et l'interprétation simultanée en direct.

Tongyi lance Qwen3-LiveTranslate-Flash : prend en charge la reconnaissance de 18 langues, 10 sorties vocales et 6 dialectes

Articles connexes

GPT-5-Codex est désormais disponible dans l'API Responses et la CLI Codex prend désormais en charge le même modèle.

Mise à niveau de Qwen3-Coder : performances améliorées du terminal Bench, prise en charge de l'intégration Qwen Code/Claude Code

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés

Tongyi lance Qwen3-LiveTranslate-Flash : prend en charge la reconnaissance de 18 langues, 10 sorties vocales et 6 dialectes

Articles connexes

GPT-5-Codex est désormais disponible dans l&#39;API Responses et la CLI Codex prend désormais en charge le même modèle.

Mise à niveau de Qwen3-Coder : performances améliorées du terminal Bench, prise en charge de l&#39;intégration Qwen Code/Claude Code

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés

Soumettre un outil IA

Veuillez confirmer les informations de soumission

GPT-5-Codex est désormais disponible dans l'API Responses et la CLI Codex prend désormais en charge le même modèle.

Mise à niveau de Qwen3-Coder : performances améliorées du terminal Bench, prise en charge de l'intégration Qwen Code/Claude Code