Fun-ASR与Fun-CosyVoice 3开放源码，推动语音AI生态发展

AI资讯 • Admin • 2025/12/19 • 138 次浏览

近期，语音与视频人工智能领域迎来多项技术发布，多模态生成模型 Wan2.6 以及语音模型 Fun-ASR、Fun-CosyVoice 3 相继公布，引发创作者与开发者关注。相关模型主打在角色外观、声音与叙事风格上的一致性表现，目标是提升视频内容的电影化效果与整体表达能力。

据介绍，Wan2.6 被定位为“电影级”多模态生成模型，强调在长时序内容中保持角色形象与声音稳定，适用于故事化视频、虚拟角色演绎等场景。同时，Fun-ASR 与 Fun-CosyVoice 3 的推出，使语音识别与语音合成能力进一步升级，并同步提供开源版本，降低了开发者的使用门槛。

业内普遍认为，语音与视频生成模型的持续迭代，有助于拓展创意内容生产方式，但在实际应用中仍需关注算力成本、版权归属以及生成内容合规性等问题。部分模型的具体性能指标与商业化路径，仍有待后续更明确的信息披露。

常见问题

Q：Wan2.6 是什么类型的模型？

A：Wan2.6 是一款多模态生成模型，主要用于视频内容创作，强调角色外观、声音和叙事风格的一致性。

Q：Fun-ASR 和 Fun-CosyVoice 3 主要解决什么问题？

A：Fun-ASR 聚焦语音识别能力，Fun-CosyVoice 3 则侧重语音合成与表达效果，均面向开发者和创作者使用。

Q：哪些用户适合使用这些语音与视频AI模型？

A：内容创作者、AI 应用开发者以及从事虚拟角色或多媒体制作的团队较为适合。

Q：这些模型是否已经开源？

A：Fun-ASR 与 Fun-CosyVoice 3 已提供开源版本，Wan2.6 的具体开源与授权情况仍需以官方信息为准。

Q：使用生成式语音和视频AI需要注意哪些风险？

A：需要关注生成内容的版权、合规性以及误用风险，同时评估算力和部署成本。

推荐工具