Chroma 1.0 发布：全球首个开源端到端实时语音到语音模型

Ai开源 • Admin • 2026/1/22 • 66 次浏览

一、摘要

Chroma 1.0 是由 FlashLabs 训练并完全开源的端到端实时语音到语音模型，支持个性化语音克隆。模型无需传统 ASR→LLM→TTS 管线，可在约 150ms 内完成端到端响应，定位为研究级、可落地的实时对话方案，并作为 OpenAI Realtime 模型的开源替代。

二、核心特性

1、端到端原生语音：直接语音输入到语音输出，减少延迟与误差累积。

2、实时性能：端到端 TTFT <150ms，启用 SGLang 后约 135ms。

3、语音克隆：仅需数秒参考音频即可生成高保真个性化声音。

4、评测指标：SIM 达 0.817，较人类基线 0.73 提升约 10.96%。

5、模型规模：约 4B 参数，在推理与对话能力间取得平衡。

三、安装

1、从 GitHub 获取推理代码并安装依赖。

2、通过 Hugging Face 下载 Chroma 1.0 权重。

3、使用官方示例或 SGLang 配置启动实时推理服务。

四、典型用例

1、实时语音助手与对话机器人。

2、跨语言或跨角色语音配音与内容生成。

3、会议、客服等低延迟语音交互系统。

4、研究场景中的语音理解与生成实验。

五、生态与竞品

1、生态：已提供模型权重、推理代码，并支持 SGLang 推理框架。

2、竞品：与 OpenAI Realtime、Llama 系列、多模态语音模型相比，Chroma 1.0 的优势在于完全开源与端到端实时能力；不同方案在延迟、音质和算力需求上各有取舍。

六、局限与注意事项

1、实时推理对 GPU 与系统优化要求较高。

2、语音克隆涉及隐私与合规问题，需获得授权。

3、评测指标基于公开基准，实际效果需结合具体场景验证。

七、项目地址

https://github.com/FlashLabs-AI-Chroma

八、常见问题

Q：Chroma 1.0 是否完全开源？

A：是的，代码与模型权重均已开源。

Q：是否必须使用 SGLang？

A：不是，但使用 SGLang 可进一步降低延迟。

Q：语音克隆需要多长参考音频？

A：通常只需几秒即可生成较高保真度声音。

Chroma 1.0 发布：全球首个开源端到端实时语音到语音模型

相关文章

Andrew Bosworth透露Meta测试新AI模型，外界解读为关键里程碑

Cursor 2.4新增能力：Agent可边工作边提澄清问题，支持生成图片并写入assets

Mem0 值得接入 Agent 吗？长期记忆有用但要管好边界

Haystack 适合什么团队？它更像可组合的 RAG 工程框架

推荐工具

Chroma 1.0 发布：全球首个开源端到端实时语音到语音模型

相关文章

Andrew Bosworth透露Meta测试新AI模型，外界解读为关键里程碑

Cursor 2.4新增能力：Agent可边工作边提澄清问题，支持生成图片并写入assets

Mem0 值得接入 Agent 吗？长期记忆有用但要管好边界

Haystack 适合什么团队？它更像可组合的 RAG 工程框架

推荐工具

提交AI工具

请确认提交信息