1. Résumé
L’équipe vocale Alibaba Tongyi (FunAudioLLM) diffuse en open source deux types de modèles audio : Fun-CosyVoice3-0.5B-2512 (TTS) pour la synthèse vocale et Fun-ASR-Nano-2512 (ASR) pour la reconnaissance vocale. La première met l’accent sur le clonage vocal multilingue, zéro prise de vue, et la synthèse en streaming à faible latence ; Ce dernier met l’accent sur la reconnaissance de 31 langues, la couverture des accents dialectaux et la dictée en temps réel, ce qui le rend adapté à des applications de bout en bout allant de la « génération de voix off » à la « transcription vocale ».
2. Caractéristiques principales
- Fun-CosyVoice3-0.5B (TTS)
- couvre 9 langues courantes et supporte 18+ dialectes/accents chinois ainsi que le clonage vocal interlinguistique sans prise de parole.
- Il prend en charge l’entrée en flux texte et la sortie audio (streaming bidirectionnel) pour une interaction à faible latence.
- Il supporte le contrôle directif (par exemple, langue, dialecte, débit/volume de la parole, etc.) et des capacités de normalisation du texte plus puissantes.
- 2. Fun-ASR-Nano (ASR)
- couvre 31 langues et supporte la commutation libre ainsi que la reconnaissance hybride.
- Il permet de reconnaître les principaux dialectes chinois et les accents multirégionaux, et convient à des situations complexes telles que des conférences et des véhicules.
- Offre des capacités de transcription en temps réel à faible latence et peut être appelé via l’AutoModel de funasr.
3. Installation
- Cloner le dépôt CosyVoice (TTS / Fun-CosyVoice3)
- et installer les dépendances (selon les exigences et les exemples officiels).
- Téléchargez les poids Fun-CosyVoice3-0.5B-2512 de Hugging Face, ou retirez-les automatiquement comme dans le script d’exemple.
- L’inférence en streaming privilégie l’utilisation d’exemples officiels de streaming/scripts côté serveur pour éviter les coupures de phrase et la latence élevée causée par l’auto-couture.
- 2. ASR (Fun-ASR / Fun-ASR-Nano)
- installe funasr avec les dépendances listées dans la fiche de dépôt/modèle.
- Chargez le modèle avec
AutoModel(..., trust_remote_code=True)par exemple de carte de modèle. - La dictée en temps réel suggère une inférence basée sur des images courtes/petits segments, ainsi qu’une fusion incrémentale de sortie et une correction d’erreurs au niveau de l’application.
4. Cas d’usage typiques
- Doublage interlinguistique et contenu audio : TTS multilingue + timbre unifié, adapté au doublage vidéo, aux podcasts et au contenu d’apprentissage.
- Clonage vocal et doublage des personnages : clonage zéro plan avec une petite quantité d’audio de référence pour les personnages virtuels et narration multi-caractères (autorisation requise).
- Transcription en temps réel de réunions/classes : dictée à faible latence + (si supportée par une chaîne d’outils) mots/listes de mots en phase améliorent la précision des noms spéciaux.
- Inspection qualité par centre d’appels : la transcription ASR est effectuée pour la recherche, l’audit de conformité et le résumé, et une revue manuelle est recommandée pour les liens clés.
5. Écologie et produits concurrents
- L’aspect TTS écologique
- est principalement basé sur le projet CosyVoice, et le poids est libéré dans Hugging Face / ModelScope, etc., ce qui favorise le déploiement et la reproduction.
- Le côté ASR fournit le dépôt Fun-ASR et les poids des modèles, et se connecte à la chaîne d’outils funasr. 2. Les comparaisons courantes de
- TTS concurrentes
- incluent des solutions open source telles que VITS et F5-TTS ainsi que le TTS cloud commercial ; La différence avec Fun-CosyVoice3 réside dans la combinaison de « clonage multilingue sans prise + streaming bidirectionnel + contrôle des instructions ».
- Les contrôles courants pour ASR incluent Whisper line, Wenet, etc. ; Fun-ASR-Nano met l’accent sur le multilinguisme, les accents dialectaux et la faible latence. Il est recommandé d’utiliser vos propres données pour la vérification A/B.
6. Limitations et précautions
- Le clonage vocal implique l’autorisation et la confidentialité : il doit être explicitement autorisé pour éviter l’usurpation d’identité et la fraude.
- L’expérience de streaming dépend fortement des détails techniques : les politiques de découpage, le VAD, le jitter réseau et la mise en cache peuvent tous affecter la latence et la rupture de phrases.
- Les dialectes à longue queue et les environnements bruyants peuvent encore être mal identifiés : il est recommandé de fixer un seuil de confiance et un lien de révision manuelle.
4. Utiliser trust_remote_code=True pour évaluer la sécurité de la chaîne d’approvisionnement : les versions fixes, les codes d’audit et les opérations isolées sont plus sécurisées.
7. Adresse
du projet https ://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512
8. FAQ
Q : Fun-CosyVoice3-0.5B supporte-t-il le « TTS en 9 langues » avec la sortie en streaming ?
R : Il prend en compte la synthèse vocale en 9 langues et prend en charge les capacités de streaming bidirectionnel pour l’entrée en flux texte et la sortie audio.
Q : Quelle quantité d’audio de référence est nécessaire pour le « clonage vocal » de Fun-CosyVoice3-0.5B ?
R : Il est positionné comme un clone sonore zéro prise, généralement avec une petite quantité d’audio de référence, mais une qualité sonore et un accent différents affectent la similarité et la stabilité.
Q : Le Fun-ASR-Nano prend-il en charge 31 langues et la reconnaissance des accents dialectaux ?
R : Il prend en charge 31 langues et couvre les principaux dialectes chinois ainsi que les accents multirégionaux, ce qui le rend adapté aux scénarios de dictée en temps réel.
Q : Comment puis-je appeler rapidement Fun-ASR-Nano en Python ?
R : Chargez l’exemple de carte modèle via l’AutoModel de funasr pour déduire des fichiers audio ou des tranches en streaming.