通义千问宣布上线 Qwen3-LiveTranslate-Flash,定位为实时多模态同传模型,面向面对面交流与线下活动等场景。官方资料称,该模型可在约 3 秒端到端时延内完成识别与翻译,具备 18 种语言识别、6 种方言理解与 10 种语言语音输出能力,并提供自然、富表现力的声音。模型强调“视觉增强理解”,可结合唇形、手势、屏幕文字与实体识别,在噪声环境下保持稳健表现。
接入方面,阿里云 DashScope 提供 Qwen3-LiveTranslate-Flash-Realtime 接口与速率限制说明,并开放在线 Hugging Face Demo 便于体验。官方渠道将其描述为“离线级准确度”的实时口译方案,具体效果依输入设备、场景噪声与网络条件而异;多语言覆盖与延迟指标以产品文档与后续技术报告为准。
常见问题
Q:支持哪些语言与输出?
A:识别 18 种语言、理解 6 种方言,并能以 10 种语言进行语音输出;完整清单见 Model Studio 文档。
Q:延迟与稳健性如何?
A:官方口径为约 3 秒端到端,结合读唇、手势与读屏可在嘈杂环境下增强稳定性,实际取决于设备与网络。
Q:如何体验或调用?
A:可在 Hugging Face 体验 Demo;生产集成可通过阿里云 DashScope 的 Realtime 接口。
Q:是否开源?
A:为 API 形态提供,当前未公开完整权重;相关示例与演示在 GitHub/HF/ModelScope 生态同步更新。
Q:适用场景有哪些?
A:跨语言面对面交流、会议口译、旅游服务、内容创作配音与直播同传等实时应用。