开源语音方案对比:Fun-CosyVoice3 vs 常见 TTS、Fun-ASR-Nano vs 主流 ASR
一、摘要 阿里通义语音团队(FunAudioLLM)开源两类音频模型:面向语音合成的 Fun-CosyVoice3-0.5B-2512(TTS),以及面向语音识别的 Fun-ASR-Nano-2512(ASR)。前者强调多语种、零样本声音克隆与低延迟流式合成;后者强调 31 语种识别、方言口音覆盖与...
Ai开源 • Admin •
512
找到 1 篇相关文章