Retour à Informations sur l’IA
Tongyi lance Qwen3-LiveTranslate-Flash : prend en charge la reconnaissance de 18 langues, 10 sorties vocales et 6 dialectes

Tongyi lance Qwen3-LiveTranslate-Flash : prend en charge la reconnaissance de 18 langues, 10 sorties vocales et 6 dialectes

Informations sur l’IA Admin 51 vues

Tongyi Qianwen a annoncé le lancement de Qwen3-LiveTranslate-Flash , un modèle d'interprétation simultanée multimodale en temps réel conçu pour les communications en face à face et les événements hors ligne. Les données officielles indiquent que le modèle peut effectuer la reconnaissance et la traduction avec une latence de bout en bout d'environ 3 secondes , reconnaître 18 langues , comprendre 6 dialectes et produire des paroles en 10 langues , offrant un son naturel et expressif. Ce modèle met l'accent sur une « compréhension visuelle améliorée » et peut combiner la forme des lèvres, la gestuelle, le texte à l'écran et la reconnaissance d'entités, garantissant ainsi des performances robustes dans les environnements bruyants.

Pour y accéder, Alibaba Cloud DashScope fournit l'interface Qwen3-LiveTranslate-Flash-Realtime et les instructions de limitation de débit, ainsi qu'une démonstration en ligne de Hugging Face pour une expérience simplifiée. Les sources officielles le décrivent comme une solution d'interprétation en temps réel offrant une précision comparable à celle des applications hors ligne. Les performances spécifiques varient toutefois en fonction du périphérique d'entrée, du bruit de la scène et des conditions réseau. La couverture multilingue et les mesures de latence sont soumises à la documentation produit et aux rapports techniques ultérieurs.

Questions fréquemment posées

Q : Quelles langues et sorties sont prises en charge ?

A : Reconnaît 18 langues, comprend 6 dialectes et peut produire des discours dans 10 langues ; consultez la documentation de Model Studio pour une liste complète.

Q : Qu'en est-il de la latence et de la robustesse ?

R : L’estimation officielle est d’environ 3 secondes de bout en bout. Combiner la lecture labiale, les gestes et la lecture sur écran peut améliorer la stabilité dans les environnements bruyants. Le temps réel dépend de l’appareil et du réseau.

Q : Comment l'expérimenter ou l'appeler ?

R : Vous pouvez découvrir la démo sur Hugging Face ; l'intégration de la production peut être réalisée via l'interface en temps réel d'Alibaba Cloud DashScope.

Q : Est-ce open source ?

R : Il est fourni sous la forme d'une API et son poids total n'est pas actuellement divulgué ; les exemples et démonstrations associés sont mis à jour de manière synchrone dans l'écosystème GitHub/HF/ModelScope.

Q : Quels sont les scénarios applicables ?

A : Applications en temps réel telles que la communication en face à face interlinguistique, l'interprétation de conférence, les services touristiques, le doublage de création de contenu et l'interprétation simultanée en direct.

Qwen3-LiveTranslate-Interprétation simultanée en temps réel Flash Qwen3-LiveTranslate-Flash 3 secondes de délai Qwen3-LiveTranslate-Traduction Flash de bout en bout Reconnaissance linguistique Qwen3-LiveTranslate-Flash18 Qwen3-LiveTranslate-Flash 6 dialectes compréhensibles Qwen3-LiveTranslate-Flash10 types de sortie vocale Qwen3-LiveTranslate-Amélioration visuelle Flash Qwen3-LiveTranslate-Flash reconnaissance de lecture labiale Qwen3-LiveTranslate-Assistance gestuelle Flash Qwen3-LiveTranslate-Capacité de lecture d'écran Flash Qwen3-LiveTranslate-Flash est robuste dans les environnements bruyants Qwen3-LiveTranslate-Flash communication en face à face Qwen3-LiveTranslate-Interprétation de conférence Flash Qwen3-LiveTranslate-Interprétation de voyage Flash Qwen3-LiveTranslate-Interprétation simultanée en direct Flash Qwen3-LiveTranslate-Génération de doublage Flash Qwen3-LiveTranslate-Flash voix naturelle Qwen3-LiveTranslate-Flash son expressif Qwen3-LiveTranslate-Flash bidirectionnel en temps réel Qwen3-LiveTranslate-Flash Voix à Voix Qwen3-LiveTranslate-Flash Voix en Texte Qwen3-LiveTranslate-Génération de sous-titres Flash Qwen3-LiveTranslate-Entrée multimodale Flash Qwen3-LiveTranslate-Reconnaissance d'entités Flash Qwen3-LiveTranslate-Reconnaissance de texte sur écran Flash Qwen3-LiveTranslate-FlashDashScopeTemps réel Qwen3-LiveTranslate-Flash Accès au cloud Alibaba Qwen3-LiveTranslate-Limite de débit Flash Qwen3-LiveTranslate-FlashHuggingFaceDemo Expérience en ligne Qwen3-LiveTranslate-Flash Appel Qwen3-LiveTranslate-FlashAPI Exemple Qwen3-LiveTranslate-FlashSDK Documentation du développeur Qwen3-LiveTranslate-Flash Qwen3-LiveTranslate-FlashModelStudio Qwen3-LiveTranslate-Flash niveau de précision hors ligne Configuration requise pour Qwen3-LiveTranslate-Flash Configuration requise pour Qwen3-LiveTranslate-Flash Bonnes pratiques pour le scénario Flash Qwen3-LiveTranslate Qwen3-LiveTranslate-Flash communication multilingue Déploiement Flash Enterprise de Qwen3-LiveTranslate Qwen3-LiveTranslate-Flash Confidentialité et conformité Évaluation du délai Flash Qwen3-LiveTranslate Qwen3-LiveTranslate-Liste multilingue Flash Qwen3-LiveTranslate-Prise en charge du dialecte Flash Qwen3-LiveTranslate-Synthèse vocale Flash Qwen3-LiveTranslate-Flash robuste au bruit Vidéo de démonstration Flash de Qwen3-LiveTranslate Qwen3-LiveTranslate-Continuité de la conversation Flash Qwen3-LiveTranslate-Qualité de traduction Flash Qwen3-LiveTranslate-Flash est maintenant disponible

Outils Recommandés

Plus