Sortie de Chroma 1.0 : le premier modèle open source au monde de voix-to-parole en temps réel de bout en bout

L’IA est open source • Admin • 22/01/2026 • 66 vues

Résumé

Chroma 1.0 est un modèle de voix-parole en temps réel de bout en bout entraîné par FlashLabs et entièrement open source, permettant un clonage vocal personnalisé. Le modèle élimine le besoin de pipelines ASR→LLM→TTS traditionnels, et peut effectuer des réponses de bout en bout en environ 150 ms, le positionnant comme une solution de dialogue en temps réel de niveau recherche, accessible, et servant d’alternative open source au modèle Realtime d’OpenAI.

Caractéristiques principales
Voix native de bout en bout : entrée vocale directe vers la sortie vocale, réduisant ainsi les délais et l’accumulation d’erreurs.
Performance en temps réel : TTFT de bout en bout < 150 ms, environ 135 ms après l’activation de SGLang.
Clonage vocal : Générez des voix personnalisées haute fidélité en seulement quelques secondes d’audio de référence.
Indicateurs d’évaluation : SIM a atteint 0,817, soit une augmentation d’environ 10,96 % par rapport à la référence humaine de 0,73.
Taille du modèle : environ 4B paramètres, trouvant un équilibre entre raisonnement et capacité de dialogue.
Installation
Obtenir le code d’inférence depuis GitHub et installer les dépendances.
Téléchargez les poids Chroma 1.0 via Hugging Face.
Lancez le service d’inférence en temps réel en utilisant l’exemple officiel ou la configuration SGLang.
Cas d’usage typiques
Assistants vocaux en temps réel et robots conversationnels.
Doublage vocal inter-langues ou entre personnages et génération de contenu.
Système d’interaction vocale à faible latence pour les conférences et le service client.
Expériences de compréhension et de génération de la parole dans des scénarios de recherche.
Écologie et produits concurrents
Écosystème : poids du modèle, code d’inférence et prise en charge du cadre d’inférence SGLang.
Produits concurrents : Comparé à OpenAI Realtime, la série Llama et les modèles vocaux multimodaux, les avantages de Chroma 1.0 résident dans ses capacités entièrement open source et de bout en bout en temps réel ; Différentes solutions ont leurs propres compromis en termes de latence, de qualité sonore et de besoins en puissance de calcul.
Limitations et précautions
L’inférence en temps réel a des exigences élevées pour l’optimisation du GPU et du système.
Le clonage vocal implique des questions de confidentialité et de conformité et nécessite une autorisation.
Les indicateurs d’évaluation sont basés sur des références publiques, et l’effet réel doit être vérifié en combinaison avec des scénarios spécifiques.
Adresse du projet

https://github.com/FlashLabs-AI-Chroma

Questions fréquemment posées

Q : Chroma 1.0 est-il entièrement open source ?

R : Oui, les poids du code et des modèles sont open source.

Q : Est-il obligatoire d’utiliser SGLang ?

R : Non, mais utiliser SGLang réduit encore la latence.

Q : Quelle est la durée nécessaire pour le clonage vocal de référence audio ?

R : Il ne faut généralement que quelques secondes pour générer un son de haute fidélité.

Sortie de Chroma 1.0 : le premier modèle open source au monde de voix-to-parole en temps réel de bout en bout

Articles connexes

Andrew Bosworth a révélé que Meta teste un nouveau modèle d’IA, interprété comme une étape clé

Nouvelles fonctionnalités de Cursor 2.4 : Les agents peuvent poser des questions de clarification pendant le travail, et supporter la génération d’images et la rédaction d’assets

Mem0 vaut-il la peine d’être intégré à un agent ? La mémoire à long terme est utile, mais il faut gérer les limites

Quel type d’équipe Haystack convient-il ? C’est plutôt comme un framework d’ingénierie RAG composable

Outils Recommandés

Sortie de Chroma 1.0 : le premier modèle open source au monde de voix-to-parole en temps réel de bout en bout

Articles connexes

Andrew Bosworth a révélé que Meta teste un nouveau modèle d’IA, interprété comme une étape clé

Nouvelles fonctionnalités de Cursor 2.4 : Les agents peuvent poser des questions de clarification pendant le travail, et supporter la génération d’images et la rédaction d’assets

Mem0 vaut-il la peine d’être intégré à un agent ? La mémoire à long terme est utile, mais il faut gérer les limites

Quel type d’équipe Haystack convient-il ? C’est plutôt comme un framework d’ingénierie RAG composable

Outils Recommandés

Soumettre un outil IA

Veuillez confirmer les informations de soumission