L’équipe Tongyi d’Alibaba a publié une nouvelle version du modèle de synthèse vocale Qwen3-TTS (27-11-2025), axée sur des améliorations complètes autour de la richesse du timbre, du multilinguisme et de la naturalité. Officiellement, cette version propose plus de 49 sons de haute qualité, allant du vif et mignon au stable et sérieux, couvrant une variété de scénarios d’application, et les utilisateurs peuvent choisir le son le plus en accord avec la marque et le tempérament du contenu selon leurs besoins.
En ce qui concerne le support linguistique et dialectal, la nouvelle version de Qwen3-TTS a couvert dix langues : chinois, anglais, allemand, italien, portugais, espagnol, japonais, coréen, français et russe, et a ajouté le hokkien, wu, cantonais, ainsi que le Sichuan, Pékin, Nankin, Tianjin, Shaanxi et d’autres accents locaux. Le contrôle de la vitesse de la parole, des pauses et du ton par le modèle est encore affiné, mettant l’accent sur la capacité d’ajuster automatiquement le rythme selon le texte et le contexte, renforçant ainsi le « sentiment de réalité ».
Qwen3-TTS est désormais directement expérimenté via la fonction « Lecture et Réponse » de Qwen Chat, et ouvre simultanément des API en temps réel et des API hors ligne, facilitant ainsi l’intégration des capacités vocales dans diverses applications par les développeurs. L’officiel a également lancé une démo en ligne sur la communauté Hugging Face and Magic Partnership, facilitant l’essai rapide pour les utilisateurs de différents timbres et effets linguistiques.
Foire aux questions
Q : Quel est le numéro de version de cette mise à jour Qwen3-TTS ?
R : Il s’agit de la version 2025-11-27, qui a apporté d’importantes améliorations en termes de quantité de timbre, de multilinguisme et de naturalité.
Q : Quelles langues et dialectes sont actuellement pris en charge ?
R : Il prend en charge 10 langues, dont le chinois, l’anglais, l’allemand, l’italien, le portugais, le japonais, le coréen, le français et le russe, et aborde les accents hokkien, wu, cantonais et chinois dans de nombreux endroits.
Q : Comment les utilisateurs réguliers perçoivent-ils le nouveau modèle ?
R : Vous pouvez écouter directement Qwen Chat via la fonction « Lire et répondre », ou visiter la page officielle de démonstration en ligne.
Q : Quelle est la différence entre l’API Temps Réel et l’API Hors Ligne ?
R : L’API temps réel convient aux scénarios d’interactions en ligne sensibles à la latence, tandis que l’API hors ligne est plus adaptée à la génération par lots ou au traitement hors ligne, ce qui facilite l’intégration dans vos propres services.
Q : Comment les développeurs peuvent-ils intégrer Qwen3-TTS dans leurs applications ?
R : Vous pouvez accéder à l’API en temps réel ou hors ligne fournie par Alibaba Cloud ModelStudio et configurer les paramètres du modèle ainsi que les informations d’authentification selon le document.