Retour à Informations sur l’IA
Zhipu AI a lancé l’apprentissage par renforcement génératif à deux étapes GLM-TTS pour atteindre un SOTA open source

Zhipu AI a lancé l’apprentissage par renforcement génératif à deux étapes GLM-TTS pour atteindre un SOTA open source

Informations sur l’IA Admin 133 vues

Zhipu AI a été officiellement lancé et a rendu open source le système industriel de synthèse vocale GLM-TTS. Le système peut apprendre le timbre et les habitudes de parole du locuteur à travers environ trois secondes d’échantillons vocaux, et générer une parole naturelle et fluide proche de personnes réelles dans des situations telles que la lecture générale, le doublage émotionnel, l’évaluation éducative, les livres électroniques et le service client audio, dans le but de produire une voix à la fois réelle et émotionnellement appropriée dans la scène appropriée.

En termes de parcours technique, GLM-TTS adopte une architecture de génération en deux étapes et introduit un schéma d’apprentissage par renforcement basé sur GRPO dans la formation, et atteint la performance SOTA open source dans des évaluations publiques telles que le taux d’erreur de caractère et l’expression émotionnelle. Le modèle peut atteindre une précision de prononciation et une restauration du timbre de pointe dans l’industrie en utilisant seulement environ 100 000 heures de données d’entraînement, et la formation pré-entraînement, la LORA au timbre de haute qualité et l’apprentissage par renforcement peuvent être réalisées en quelques jours sur une seule machine, réduisant considérablement les coûts et les seuils d’entraînement.

En termes d’application et d’écologie, GLM-TTS a vérifié l’effet de mise en œuvre dans des scénarios typiques tels que l’éducation, les livres électroniques et le service client intelligent : il supporte la prononciation standard de mots multisyllabiques, de caractères et symboles rares, supporte la lecture multi-caractères et multi-émotionnelles, et maintient un ton réservé et professionnel dans la voix du service client. Parallèlement, le projet est open source dans de nombreuses communautés utilisant le protocole Apache, et offre une plateforme ouverte, une API et un portail d’expérience en ligne, facilitant la transition rapide des développeurs et des entreprises du déploiement au niveau production.

FAQ

Q : Quelles sont les principales capacités et scénarios d’application du système GLM-TTS ?

R : Le système GLM-TTS prend en charge le clonage vocal de trois secondes du timbre du haut-parleur, ce qui convient aux situations nécessitant une voix humaine simulée, telles que la lecture générale, le doublage émotionnel, l’évaluation éducative, les livres électroniques et le service client audio.

Q : Quelles sont les caractéristiques remarquables du système GLM-TTS en termes de parcours technique et d’effet ?

R : Le système GLM-TTS adopte la génération en deux étapes et l’apprentissage par renforcement basé sur GRPO, ce qui permet un SOTA open source en termes de taux d’erreur de caractère et d’évaluation de l’expression émotionnelle, tout en tenant compte d’une restauration et d’une stabilité élevées du timbre.

Q : De quels coûts de formation et de déploiement les développeurs ont-ils besoin pour utiliser le système GLM-TTS ?

R : Les développeurs peuvent utiliser environ 100 000 heures de données pour compléter l’entraînement avec le système GLM-TTS, et la pré-entraînement, la formation audio de haute qualité et l’apprentissage par renforcement peuvent être réalisées en quelques jours sur une seule machine, et le coût de déploiement est relativement faible.

Q : Comment les utilisateurs d’entreprise peuvent-ils accéder au système GLM-TTS aux services en ligne ?

R : Les utilisateurs d’entreprise peuvent appeler les capacités de synthèse vocale et de réplication timbre de GLM-TTS via des plateformes ouvertes et des documents API, configurer la facturation et QPS selon l’échelle métier, et progresser progressivement des appels d’essai à des appels de grande envergure en production.

Q : Comment les utilisateurs ordinaires peuvent-ils expérimenter l’effet de synthèse du système GLM-TTS en ligne ?

R : Les utilisateurs ordinaires peuvent télécharger du texte ou de courtes invitations vocales via audio.z.ai ou Zhipu Qingyan et d’autres portails pour découvrir les effets réels de la lecture multi-style et du clonage exclusif de timbre.

Zhipu AI, officiellement GLM-TTS industriel open source Son hi-fi clone de 3 secondes GLM-TTS Zhipu AI a sorti GLM-TTS, un clone vocal de trois secondes GLM-TTS est disponible pour un service client audio éducatif en livre électronique Zhipu AI GLM-TTS prend en charge la lecture du doublage émotionnel Apprentissage par renforcement de l’architecture générative à deux étapes GLM-TTS L’AI GLM-TTS ne compte que 100 000 heures d’entraînement GLM-TTS atteint la SOTA dans l’évaluation open source Zhipu AI GLM-TTS prend en charge plusieurs personnages et plusieurs émotions La prononciation standard GLM-TTS couvre les mots multisyllabiques et les caractères rares Zhipu AI lance le GLM-TTS pour des scénarios éducatifs GLM-TTS a fait son entrée dans la scène des livres audio L’AI GLM-TTS prend en charge les voix du service client multi-émotions GLM-TTS met l’accent sur des effets réalistes et une fluidité naturelle La voix de Zhipu AI GLM-TTS est plus proche de la vraie personne Le corpus de trois secondes de GLM-TTS apprend les habitudes du locuteur L’AI GLM-TTS soutient la notation dans les évaluations éducatives La pré-formation GLM-TTS et la LORA autonome ont été achevées en quelques jours L’IA GLM-TTS abaisse considérablement le seuil d’entraînement GLM-TTS prend en charge les pauses symboliques et la ponctuation complexe L’AI GLM-TTS est open source sous le protocole Apache GLM-TTS offre une plateforme ouverte et une interface API L’IA GLM-TTS prend en charge l’expérience de démonstration en ligne GLM-TTS fournit des solutions de déploiement de niveau production pour les entreprises Zhipu AI GLM-TTS convient aux robots vocaux intelligents du service client GLM-TTS est à l’avant-garde dans l’évaluation du taux d’erreur de caractère L’expression émotionnelle de Zhipu AI GLM-TTS atteint le SOTA open source GLM-TTS prend en compte à la fois la reproduction tonale et la stabilité Capacité de lecture multi-caractères et multi-émotions de Zhipu AI GLM-TTS GLM-TTS prend en charge la lecture standard des caractères multisyllabiques et des caractères rares Zhipu AI GLM-TTS est optimisé pour les scénarios d’évaluation éducative GLM-TTS aide les eBooks à obtenir une lecture à haute voix de haute qualité Le son du service client audio GLM-TTS ZHIPU AI est mesuré et professionnel Le GLM-TTS passe rapidement de la démo à la production L’AI GLM-TTS réduit le coût de la synthèse vocale pour les entreprises GLM-TTS open source aide les équipes petites et moyennes à développer leur propre TTS L’AI GLM-TTS convient aux applications vocales dans plusieurs secteurs Le clonage vocal GLM-TTS convient à la production de contenu par les créateurs L’AI GLM-TTS propose des solutions de doublage émotionnel GLM-TTS prend en charge le contrôle de lecture multi-émotions et multi-styles L’AI GLM-TTS met l’accent sur une production stable de qualité industrielle GLM-TTS optimise la parole grâce à l’apprentissage par renforcement GRPO L’AI GLM-TTS prend en charge un timbre unifié entre les scènes GLM-TTS est profondément intégré aux API de plateformes ouvertes AI GLM-TTS propose une expérience et une documentation en ligne GLM-TTS offre un soutien aux évaluations éducatives de l’expression orale L’AI GLM-TTS aide à améliorer l’expérience du service client audio GLM-TTS est naturellement fluide pour lire de longs textes L’AI GLM-TTS aide les entreprises à créer des sons exclusifs Le logiciel open source GLM-TTS améliore l’écosystème chinois de synthèse vocale

Outils Recommandés

Plus