Retour à Informations sur l’IA
LongCat-AudioDiT se concentre sur l'espace latent de la forme d'onde et le clonage du ton plus fort

LongCat-AudioDiT se concentre sur l'espace latent de la forme d'onde et le clonage du ton plus fort

Informations sur l’IA Admin 100 vues

L'équipe LongCat a publié LongCat-AudioDiT avec la libération synchrone du code, du rapport technique et des poids Hugging Face. Il diffuse directement le TTS dans l'espace latent de la forme d'onde et ne retourne plus à une représentation intermédiaire telle que le mel. Ce qui attire le plus l'attention de la sphère de la parole, c'est qu 'il met sur la table les fractions de clonage de la tonalité, les poids du modèle et le code d'inférence.

Nous avons changé le chemin de génération de

LongCat-AudioDiT prend une route de diffusion non autorégressive, comprimée en deux segments Wav-VAE et Diffusion. L'argument de base officiel est simple : cela est fait pour réduire les erreurs de cascade, raccourcir les liens de génération de la parole et traiter les problèmes de distorsion communs dans les TTS diffusés.

Deuxièmement, cette vague n'est pas seulement publiée de documents, 1B et 3.5B ont été en mesure de déposer

Pour les développeurs, cela est plus pratique que de donner un seul rapport, car le TTS ordinaire et le clonage vocal avec prompt audio peuvent être vérifiés directement.

Ce score est captivant, mais une compréhension plus solide est toujours « en tête par rapport aux benchmarks officiels », avec des auditions et des répétitions communautaires supplémentaires à suivre.

Quatrièmement, le véritable contenu technique est le traitement de l'APG et de l'incompatibilité.

Cette fois, non seulement le CFG est remplacé par l'APG, mais l'équipe a également résolu séparément l'incompatibilité de formation-inference de longue date dans le TTS de diffusion. Une autre conclusion facile à retenir du rapport est également contre-intuitive : une meilleure reconstruction de la VAE n'est pas nécessairement directement échangée pour une meilleure performance globale de la TTS.

Cinquièmement, comment juger de la valeur de cet ensemble de choses ne vaut pas la peine de vous essayer maintenant

Voyez deux étapes suffisantes : d'abord voir si l'entrepôt a fourni une entrée d'inférence complète, puis voir si la page modèle a accroché des poids qui peuvent être appelés directement. Maintenant que les deux sont en place, il ressemble plus à un jeu de recherche open source exécutable plutôt que de s'arrêter à une démonstration de concept.

@

Outils Recommandés

Plus