Retour à Informations sur l’IA
Tongyi Qianwen lance Qwen3-TTS-Flash : anglais et chinois, l'architecture unifiée prend en charge 17 tons

Tongyi Qianwen lance Qwen3-TTS-Flash : anglais et chinois, l'architecture unifiée prend en charge 17 tons

Informations sur l’IA Admin 96 vues

L'équipe Alibaba Tongyi a annoncé le lancement de Qwen3-TTS (y compris la variante Qwen3-TTS-Flash ), un modèle de synthèse vocale nouvelle génération. Ce modèle offre une synthèse multitimbre, multilingue et multidialecte, favorisant une restitution vocale plus naturelle et expressive. Des démonstrations officielles et des articles de blog démontrent les performances exceptionnelles du modèle en anglais et en chinois. Une nouvelle architecture unifiée prend en charge la prise en charge multilingue et multidialecte au sein d'un même modèle. Une démonstration en ligne et des instructions d'accès sont disponibles dès maintenant.

La documentation produit et la page de la console accompagnant le produit indiquent que Qwen3-TTS-Flash propose 17 voix anthropomorphes, peut reproduire plusieurs langues et dialectes (dont le mandarin et d'autres dialectes) avec la même voix, et fournit des spécifications de facturation API. Il offre également une option de synthèse vocale en temps réel (Qwen3-TTS Realtime) pour réduire la latence de bout en bout. Les médias ont également comparé la sortie de Qwen3-TTS le même jour à celle de Qwen3-Omni, soulignant qu'elles constituent des mises à jour clés de la famille multimodale Tongyi.

Questions fréquemment posées

Q : Quelles sont les principales fonctionnalités de Qwen3-TTS ?

R : Il intègre plusieurs tons, langues et dialectes, met l'accent sur le naturel et l'expressivité de l'anglais et du chinois, et fournit des démonstrations en ligne et un accès API.

Q : Quelle est la différence avec Qwen-TTS ?

R : La documentation officielle recommande d'utiliser Qwen3-TTS, qui couvre une gamme plus large de tons et de langues (y compris plusieurs dialectes) et est disponible aux formats Flash et Realtime.

Q : Le poids est-il open source ?

R : Actuellement, l'API et la démo en ligne sont principalement utilisées, et leur poids n'est pas divulgué. Veuillez consulter l'interface et la console officielles pour plus d'informations.

Q : Quelles langues/dialectes et tons sont pris en charge ?

R : Le document fournit 17 tons, couvrant le chinois (y compris certains dialectes) et plusieurs langues étrangères ; consultez la page produit pour une liste détaillée et le prix.

Q : Où puis-je découvrir et obtenir des mises à jour ?

R : Vous pouvez en faire l'expérience sur le blog officiel/la page de démonstration et consulter le modèle et les options de voix en temps réel dans la documentation du produit Alibaba Cloud Tongyi Qianwen.

Outils Recommandés

Plus