Qwen3.5-Omni 已由 Qwen 官方发布。Qwen Chat 的体验入口已指向 VoiceChat 和 VideoChat。它把听说看搜与调工具压进一轮交互,但具体型号和开放范围还要核对。
一、这次升级不只是更会看图
官方这次把能力拆成离线与实时两条线。离线侧主打脚本级字幕,可生成带时间戳、镜头切换和说话人映射的视频脚本;实时侧则把细粒度语音控制、网页搜索和复杂函数调用放进同一套交互。
二、最抓眼球的是音视频 vibe coding
官方把 Audio-Visual Vibe Coding 放到很前面,核心演示是对着镜头说需求,Qwen3.5-Omni-Plus 直接生成可运行网页或小游戏。对外资料同时给出几项硬指标,包括最长 10 小时音频、400 秒 720p 视频、113 种语音识别语言或方言、36 种语音生成语言或方言,并把家族拆成 Plus、Flash、Light 三档。
三、怎么自查这波能力是否轮到你
先去 Qwen Chat 看右下角是否已有 VoiceChat 或 VideoChat,再到开发文档确认 Offline API 和 Realtime API 入口是否可见。若网页能直接开实时语音或视频,控制台也能调用对应模型,基本就说明这批能力已开始对外可用。
四、价值很大,但边界也得看清
这套能力最实际的意义,不是单次问答更炫,而是让语音助手、视频理解、会议处理和前端原型开始进入连续协作。要注意的是,官方宣传用了 Qwen3.5-Omni 家族口径,但公开 API 文档当前更明确的是 Qwen-Omni 与 Qwen3-Omni-Flash、Realtime 系列,语音克隆也仍在逐步工程化放量。