Qwen a lancé une nouvelle gamme de Qwen3-TTS, lançant deux gammes de capacités : VoiceDesign-VD-Flash et VoiceClone-VC-Flash : la première utilise des « instructions en texte libre » pour contrôler le ton, le rythme, l’ambiance et le design des personnages à un niveau précis, en insistant sur le fait qu’elle ne repose pas sur des timbres prédéfinis ; Ce dernier se concentre sur le clonage vocal en seulement 3 secondes d’audio, et améliore les performances en génération multilingue ainsi que des arrêts de vitesse de parole plus naturels. La publicité officielle affirme que les deux surpassent plusieurs systèmes concurrents ou similaires dans certains jeux de rôle et évaluations multilingues.
Du point de vue de l’application applicative, VoiceClone-VC-Flash affirme pouvoir générer des voix dans 10 langues (dont le chinois, l’anglais, le japonais, l’occidental, etc.), et donne des indicateurs tels que la réduction relative des WER, mais le calibre public peut ne pas couvrir tous les ensembles de données, conditions de bruit et processus d’évaluation, et l’effet réel peut fluctuer avec l’accent, la qualité d’enregistrement et le champ de texte. Des capacités pertinentes ont été démontrées sur Qwen Chat et sur les pages de démonstration publiques, et les développeurs peuvent également se référer aux modèles cloud et à la documentation TTS. Parallèlement, le clonage vocal implique des droits de portrait, de la vie privée et des limites d’autorisation, et l’utilisation d’échantillons et de contenus générés nécessite d’assurer un consentement explicite et d’éviter le risque d’usurpation d’identité.
FAQ
Q : Quels problèmes le nouveau VoiceDesign et VoiceClone résolvent-ils dans Qwen3-TTS ?
R : VoiceDesign est utilisé pour « concevoir et contrôler » le style vocal avec des instructions textuelles ; VoiceClone est utilisé pour reproduire rapidement des timbres spécifiques des haut-parleurs à partir de courts échantillons audio et les synthétiser dans plusieurs langues.
Q : Quelles sont les exigences audio pour VoiceClone-VC-Flash pour le clonage vocal en 3 secondes ?
R : Nécessite généralement des voix claires, moins de bruit de fond et de distorsion ; Plus l’échantillon est propre et stable, meilleure est la similitude et la compréhensibilité clonales.
Q : Quelles langues VoiceClone-VC-Flash supporte-t-il et quelles sont les limites courantes ?
R : La revendication officielle prend en charge 10 langues (dont le chinois, l’anglais, le japonais, l’espagnol, etc.) ; Lors du croisement des langues, une migration d’accent, des écarts de prononciation des noms propres individuels et des fluctuations d’intelligibilité peuvent survenir.
Q : Quels sont les points de risque les plus faciles à franchir en utilisant la fonction de clonage vocal ?
R : Clonage non autorisé des voix d’autrui, usurpation d’identité ou diffusion trompeuse ; et le téléversement d’échantillons audio contenant des informations personnelles sensibles vers des environnements inconnus.