一、摘要
Chroma 1.0 是由 FlashLabs 训练并完全开源的端到端实时语音到语音模型,支持个性化语音克隆。模型无需传统 ASR→LLM→TTS 管线,可在约 150ms 内完成端到端响应,定位为研究级、可落地的实时对话方案,并作为 OpenAI Realtime 模型的开源替代。
二、核心特性
1、端到端原生语音:直接语音输入到语音输出,减少延迟与误差累积。
2、实时性能:端到端 TTFT <150ms,启用 SGLang 后约 135ms。
3、语音克隆:仅需数秒参考音频即可生成高保真个性化声音。
4、评测指标:SIM 达 0.817,较人类基线 0.73 提升约 10.96%。
5、模型规模:约 4B 参数,在推理与对话能力间取得平衡。
三、安装
1、从 GitHub 获取推理代码并安装依赖。
2、通过 Hugging Face 下载 Chroma 1.0 权重。
3、使用官方示例或 SGLang 配置启动实时推理服务。
四、典型用例
1、实时语音助手与对话机器人。
2、跨语言或跨角色语音配音与内容生成。
3、会议、客服等低延迟语音交互系统。
4、研究场景中的语音理解与生成实验。
五、生态与竞品
1、生态:已提供模型权重、推理代码,并支持 SGLang 推理框架。
2、竞品:与 OpenAI Realtime、Llama 系列、多模态语音模型相比,Chroma 1.0 的优势在于完全开源与端到端实时能力;不同方案在延迟、音质和算力需求上各有取舍。
六、局限与注意事项
1、实时推理对 GPU 与系统优化要求较高。
2、语音克隆涉及隐私与合规问题,需获得授权。
3、评测指标基于公开基准,实际效果需结合具体场景验证。
七、项目地址
https://github.com/FlashLabs-AI-Chroma
八、常见问题
Q:Chroma 1.0 是否完全开源?
A:是的,代码与模型权重均已开源。
Q:是否必须使用 SGLang?
A:不是,但使用 SGLang 可进一步降低延迟。
Q:语音克隆需要多长参考音频?
A:通常只需几秒即可生成较高保真度声音。