阿里云通义千问团队推出 Qwen3-Omni-Flash 2025-12-01 版本,对视音频对话、语音交互与多语言处理进行了大幅升级。新版本在多轮视频与音频理解上更贴近自然对话,可以连续跟踪场景与语境变化,同时通过系统提示词支持定制对话人格,适配角色扮演、虚拟助手等差异化应用场景。
在语言和语音方面,Qwen3-Omni-Flash 新版支持 119 种文本语言和 19 种语音语言,主打更加稳定的多语种对话与识别能力,语音合成效果强调“接近真人”,适合长时语音陪聊、内容创作和智能客服等场景。官方提供网页版入口,用户可在 Qwen Chat 中通过底部的 VoiceChat 和 VideoChat 按钮直接体验语音和视频对话。
本次升级同时开放实时与离线两种 API 形态:实时 Realtime API 面向流式语音对话和多模态交互,Offline API 面向批处理和本地集成。开发者还可通过 Hugging Face 与 ModelScope 上的公开空间体验演示版本,并在阿里云控制台查看文档、配置接入权限。使用过程中需关注账户配额、费用与语音数据安全,结合业务需求选择在线或离线形态。
常见问题
Q:Qwen3-Omni-Flash 2025-12-01 版是什么?
A:这是 Qwen3-Omni-Flash 的一次重要升级版本,重点提升多轮视音频理解、多语言处理和类人语音合成能力。
Q:这次升级具体有哪些新特性?
A:包括更自然的多轮视频和音频对话、通过系统提示词自定义人格、对 119 种文本语言和 19 种语音的更稳定支持,以及更拟真的语音合成。
Q:普通用户如何体验新版 Qwen3-Omni-Flash?
A:可在 Qwen Chat 网页端,通过界面右下角的 VoiceChat 和 VideoChat 按钮进入语音或视频对话模式,无需额外安装。
Q:Realtime API 和 Offline API 有什么区别?
A:Realtime API 侧重低延迟流式对话和实时语音场景,Offline API 更适合批量处理、后端服务或对网络依赖较低的应用集成。
Q:使用语音和视频能力时有哪些注意事项?
A:需关注账号访问权限、调用成本和数据合规,避免在未经授权的情况下上传含有敏感个人隐私或受监管内容的语音和视频数据。