- 要旨
Chroma 1.0は、FlashLabsによって訓練され、完全にオープンソース化されたエンドツーエンドのリアルタイム音声間モデルで、パーソナライズされた音声クローン作成を可能にします。 このモデルは従来のASR→LLM→TTSパイプラインを不要にし、エンドツーエンドの応答を約150msで完了できるため、研究レベルのリアルタイム対話ソリューションとして位置づけられ、OpenAIのリアルタイムモデルのオープンソース代替として機能します。
- コア機能
- エンドツーエンドのネイティブボイス:音声入力から音声出力に直接変換し、遅延やエラーの蓄積を減らします。
- リアルタイム性能:エンドツーエンドTTFTはSGLang有効化後約135ms<150msです。
- ボイスクローン:数秒間のリファレンス音声で高音質のパーソナライズされた声を生成します。
- 評価指標:SIMは0.817に達し、ヒトのベースライン0.73から約10.96%増加しました。
- モデルサイズ:約4Bパラメータで、推論力と対話能力のバランスを取っています。
- 設置
- GitHubから推論コードを入手し、依存関係をインストールする。
- Hugging FaceからChroma 1.0のウェイトをダウンロード。
- 公式例またはSGLang構成を使ってリアルタイム推論サービスを起動します。
- 典型的なユースケース
- リアルタイム音声アシスタントと会話型ロボット。
- 言語間またはキャラクター間での声の吹き替えとコンテンツ生成。
- 会議およびカスタマーサービス向けの低遅延音声対話システム。
- 研究シナリオにおける音声理解と生成実験。
- 生態系と競合製品
- エコシステム:モデルの重み、推論コード、SGLang推論フレームワークのサポート。
- 競合製品:OpenAI Realtime、Llamaシリーズ、マルチモーダル音声モデルと比べて、Chroma 1.0の利点は完全オープンソースかつエンドツーエンドのリアルタイム機能にあります。 異なるソリューションには、レイテンシー、音質、計算能力の要件といったトレードオフがあります。
- 制限事項と注意事項
- リアルタイム推論にはGPUおよびシステムの最適化に高い要求があります。
- 音声クローンはプライバシーやコンプライアンスの問題を伴い、承認が必要です。
- 評価指標は公開ベンチマークに基づいており、実際の効果は特定のシナリオと組み合わせて検証する必要があります。
- プロジェクトアドレス
https://github.com/FlashLabs-AI-Chroma
- よくある質問
Q: Chroma 1.0は完全にオープンソースですか?
A: はい、コードとモデルの重みはどちらもオープンソースです。
Q: SGLangの使用は必須ですか?
A: いいえ、しかしSGLangを使うことでさらに遅延が減ります。
Q: ボイスクローン作成に必要なリファレンス音声の長さはどのくらいですか?
A: 高音質の音を生成するのに通常は数秒しかかかりません。