一、摘要
阿里通义语音团队(FunAudioLLM)开源两类音频模型:面向语音合成的 Fun-CosyVoice3-0.5B-2512(TTS),以及面向语音识别的 Fun-ASR-Nano-2512(ASR)。前者强调多语种、零样本声音克隆与低延迟流式合成;后者强调 31 语种识别、方言口音覆盖与实时听写,适合从“配音生成”到“语音转写”的端到端应用。
二、核心特性
1、Fun-CosyVoice3-0.5B(TTS)
- 覆盖 9 种常见语言,并支持 18+ 中文方言/口音与跨语种零样本声音克隆。
- 支持文本流式输入与音频流式输出(双向流式),面向低延迟交互。
- 支持指令化控制(如语言、方言、语速/音量等)与更强文本归一化能力。
- 2、Fun-ASR-Nano(ASR)
- 覆盖 31 种语言,支持自由切换与混合识别。
- 支持中文主要方言与多地区口音识别,面向会议、车载等复杂场景。
- 提供低延迟实时转写能力,并可通过 funasr 的 AutoModel 方式调用。
三、安装
1、TTS(CosyVoice / Fun-CosyVoice3)
- 克隆 CosyVoice 仓库并安装依赖(按 requirements 与官方示例)。
- 从 Hugging Face 下载 Fun-CosyVoice3-0.5B-2512 权重,或按示例脚本自动拉取。
- 流式推理优先使用官方 streaming 示例/服务端脚本,避免自行拼接导致断句与高延迟。
- 2、ASR(Fun-ASR / Fun-ASR-Nano)
- 安装 funasr 与仓库/模型卡列出的依赖。
- 按模型卡示例用
AutoModel(..., trust_remote_code=True)加载模型。 - 实时听写建议按短帧/小段切片推理,并在应用层做增量输出合并与纠错。
四、典型用例
1、跨语种配音与有声内容:多语种 TTS + 统一音色,适配视频配音、播客、学习内容。
2、声音克隆与角色配音:用少量参考音频进行零样本克隆,用于虚拟角色与多角色旁白(需授权)。
3、会议/课堂实时转写:低延迟听写 +(若工具链支持)热词/词表提升专名准确率。
4、呼叫中心质检:ASR 转写后做检索、合规审计与摘要,关键环节建议人工复核。
五、生态与竞品
1、生态
- TTS 侧以 CosyVoice 工程为主,权重在 Hugging Face / ModelScope 等发布,利于部署复现。
- ASR 侧提供 Fun-ASR 仓库与模型权重,并对接 funasr 工具链。
- 2、竞品
- TTS 常见对照包括 VITS 系、F5-TTS 等开源方案与商用云 TTS;Fun-CosyVoice3 的差异点在“多语种零样本克隆 + 双向流式 + 指令控制”的组合。
- ASR 常见对照包括 Whisper 系、Wenet 等;Fun-ASR-Nano 更强调多语种、方言口音与低延迟落地。效果建议用自有数据做 A/B 验证。
六、局限与注意事项
1、声音克隆涉及授权与隐私:必须获得明确授权,避免用于冒充与欺诈。
2、流式体验强依赖工程细节:切片策略、VAD、网络抖动与缓存都会影响延迟与断句。
3、长尾方言与嘈杂环境仍可能误识别:建议设置置信度阈值与人工复核链路。
4、使用 trust_remote_code=True 需评估供应链安全:固定版本、审计代码、隔离运行更稳妥。
七、项目地址
https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512
八、常见问题
Q:Fun-CosyVoice3-0.5B 是否支持“9 种语言 TTS”与流式输出?
A:支持 9 语种语音合成,并支持文本流式输入与音频流式输出的双向流式能力。
Q:Fun-CosyVoice3-0.5B 的“声音克隆”需要多少参考音频?
A:定位为零样本声音克隆,通常少量参考音频即可启动,但不同音质与口音会影响相似度与稳定性。
Q:Fun-ASR-Nano 是否支持 31 种语言与方言口音识别?
A:支持 31 种语言识别,并覆盖中文主要方言与多地区口音,适合实时听写场景。
Q:Fun-ASR-Nano 在 Python 里怎么快速调用?
A:按模型卡示例通过 funasr 的 AutoModel 加载,对音频文件或流式切片进行推理即可。