返回AI资讯
Qwen3-VL 发布:旗舰 235B 模型开源,Instruct/Thinking 双版本登场

Qwen3-VL 发布:旗舰 235B 模型开源,Instruct/Thinking 双版本登场

AI资讯 Admin 116 次浏览

通义千问推出新一代视觉语言模型 Qwen3-VL,旗舰 Qwen3-VL-235B-A22B 以开源形式提供 InstructThinking 两个版本。官方材料显示,Instruct 在多项视觉基准上优于 Gemini 2.5 Pro,Thinking 在多模态推理任务取得领先成绩。模型支持“视觉代理”(Visual Agent),可在 PC/手机界面理解按钮、调用工具并完成真实任务;在 OS World 等评测上表现突出。

本次升级强调长上下文与复杂场景覆盖:上下文 256K+、可扩展至 1M,可处理约两小时视频与多页 PDF;提供 32 种语言 OCR(在模糊、倾斜、罕见字符下增强鲁棒性);在 2D/3D 空间理解、遮挡与视角推理上给出更稳健表现。开放生态方面,在线对话(Qwen Chat)、API(阿里云 Model Studio)与 Hugging Face/ModelScope 权重与演示均已同步上线。

常见问题

Q:此次开源了哪些变体?

A:Qwen3-VL-235B-A22BInstructThinking,另提供 Caption/演示资源与推理示例。

Q:视觉代理能做什么?

A:读取屏幕元素与层级,理解按钮与表单,结合工具调用在真实设备/应用中完成任务。

Q:长上下文具体支持多大?

A:标注为 256K+,并可扩展至 1M 级别,适用于长视频与长文档场景。

Q:多语言能力覆盖如何?

A:支持 32 种语言 OCR,文本能力与顶级通用模型对齐,用于跨语种读屏与理解。

Q:如何体验或接入?

A:Qwen Chat 选择 qwen3-vl-plus;阿里云 Model Studio 提供 API;权重与 Demo 在 Hugging Face/ModelScope。

推荐工具

更多