Qwen3.5-Omni 发布：从长音视频理解走到实时语音视频交互

AI资讯 • Admin • 2026/3/31 • 123 次浏览

Qwen3.5-Omni 已由 Qwen 官方发布。Qwen Chat 的体验入口已指向 VoiceChat 和 VideoChat。它把听说看搜与调工具压进一轮交互，但具体型号和开放范围还要核对。

一、这次升级不只是更会看图

官方这次把能力拆成离线与实时两条线。离线侧主打脚本级字幕，可生成带时间戳、镜头切换和说话人映射的视频脚本；实时侧则把细粒度语音控制、网页搜索和复杂函数调用放进同一套交互。

二、最抓眼球的是音视频 vibe coding

官方把 Audio-Visual Vibe Coding 放到很前面，核心演示是对着镜头说需求，Qwen3.5-Omni-Plus 直接生成可运行网页或小游戏。对外资料同时给出几项硬指标，包括最长 10 小时音频、400 秒 720p 视频、113 种语音识别语言或方言、36 种语音生成语言或方言，并把家族拆成 Plus、Flash、Light 三档。

三、怎么自查这波能力是否轮到你

先去 Qwen Chat 看右下角是否已有 VoiceChat 或 VideoChat，再到开发文档确认 Offline API 和 Realtime API 入口是否可见。若网页能直接开实时语音或视频，控制台也能调用对应模型，基本就说明这批能力已开始对外可用。

四、价值很大，但边界也得看清

这套能力最实际的意义，不是单次问答更炫，而是让语音助手、视频理解、会议处理和前端原型开始进入连续协作。要注意的是，官方宣传用了 Qwen3.5-Omni 家族口径，但公开 API 文档当前更明确的是 Qwen-Omni 与 Qwen3-Omni-Flash、Realtime 系列，语音克隆也仍在逐步工程化放量。