- Résumé
Chroma 1.0 est un modèle de voix-parole en temps réel de bout en bout entraîné par FlashLabs et entièrement open source, permettant un clonage vocal personnalisé. Le modèle élimine le besoin de pipelines ASR→LLM→TTS traditionnels, et peut effectuer des réponses de bout en bout en environ 150 ms, le positionnant comme une solution de dialogue en temps réel de niveau recherche, accessible, et servant d’alternative open source au modèle Realtime d’OpenAI.
- Caractéristiques principales
- Voix native de bout en bout : entrée vocale directe vers la sortie vocale, réduisant ainsi les délais et l’accumulation d’erreurs.
- Performance en temps réel : TTFT de bout en bout < 150 ms, environ 135 ms après l’activation de SGLang.
- Clonage vocal : Générez des voix personnalisées haute fidélité en seulement quelques secondes d’audio de référence.
- Indicateurs d’évaluation : SIM a atteint 0,817, soit une augmentation d’environ 10,96 % par rapport à la référence humaine de 0,73.
- Taille du modèle : environ 4B paramètres, trouvant un équilibre entre raisonnement et capacité de dialogue.
- Installation
- Obtenir le code d’inférence depuis GitHub et installer les dépendances.
- Téléchargez les poids Chroma 1.0 via Hugging Face.
- Lancez le service d’inférence en temps réel en utilisant l’exemple officiel ou la configuration SGLang.
- Cas d’usage typiques
- Assistants vocaux en temps réel et robots conversationnels.
- Doublage vocal inter-langues ou entre personnages et génération de contenu.
- Système d’interaction vocale à faible latence pour les conférences et le service client.
- Expériences de compréhension et de génération de la parole dans des scénarios de recherche.
- Écologie et produits concurrents
- Écosystème : poids du modèle, code d’inférence et prise en charge du cadre d’inférence SGLang.
- Produits concurrents : Comparé à OpenAI Realtime, la série Llama et les modèles vocaux multimodaux, les avantages de Chroma 1.0 résident dans ses capacités entièrement open source et de bout en bout en temps réel ; Différentes solutions ont leurs propres compromis en termes de latence, de qualité sonore et de besoins en puissance de calcul.
- Limitations et précautions
- L’inférence en temps réel a des exigences élevées pour l’optimisation du GPU et du système.
- Le clonage vocal implique des questions de confidentialité et de conformité et nécessite une autorisation.
- Les indicateurs d’évaluation sont basés sur des références publiques, et l’effet réel doit être vérifié en combinaison avec des scénarios spécifiques.
- Adresse du projet
https://github.com/FlashLabs-AI-Chroma
- Questions fréquemment posées
Q : Chroma 1.0 est-il entièrement open source ?
R : Oui, les poids du code et des modèles sont open source.
Q : Est-il obligatoire d’utiliser SGLang ?
R : Non, mais utiliser SGLang réduit encore la latence.
Q : Quelle est la durée nécessaire pour le clonage vocal de référence audio ?
R : Il ne faut généralement que quelques secondes pour générer un son de haute fidélité.