Qwen3-VL 发布：旗舰 235B 模型开源，Instruct/Thinking 双版本登场

AI资讯 • Admin • 2025/9/24 • 149 次浏览

通义千问推出新一代视觉语言模型 Qwen3-VL，旗舰 Qwen3-VL-235B-A22B 以开源形式提供 Instruct 与 Thinking 两个版本。官方材料显示，Instruct 在多项视觉基准上优于 Gemini 2.5 Pro，Thinking 在多模态推理任务取得领先成绩。模型支持“视觉代理”（Visual Agent），可在 PC/手机界面理解按钮、调用工具并完成真实任务；在 OS World 等评测上表现突出。

本次升级强调长上下文与复杂场景覆盖：上下文 256K+、可扩展至 1M，可处理约两小时视频与多页 PDF；提供 32 种语言 OCR（在模糊、倾斜、罕见字符下增强鲁棒性）；在 2D/3D 空间理解、遮挡与视角推理上给出更稳健表现。开放生态方面，在线对话（Qwen Chat）、API（阿里云 Model Studio）与 Hugging Face/ModelScope 权重与演示均已同步上线。

常见问题

Q：此次开源了哪些变体？

A：Qwen3-VL-235B-A22B 的 Instruct 与 Thinking，另提供 Caption/演示资源与推理示例。

Q：视觉代理能做什么？

A：读取屏幕元素与层级，理解按钮与表单，结合工具调用在真实设备/应用中完成任务。

Q：长上下文具体支持多大？

A：标注为 256K+，并可扩展至 1M 级别，适用于长视频与长文档场景。

Q：多语言能力覆盖如何？

A：支持 32 种语言 OCR，文本能力与顶级通用模型对齐，用于跨语种读屏与理解。

Q：如何体验或接入？

A：Qwen Chat 选择 qwen3-vl-plus；阿里云 Model Studio 提供 API；权重与 Demo 在 Hugging Face/ModelScope。

Qwen3-VL 发布：旗舰 235B 模型开源，Instruct/Thinking 双版本登场

相关文章

Qwen3-Coder 升级发布：提升 Terminal Bench 表现，支持 Qwen Code/Claude Code 集成

Qwen3-Max-Instruct/Thinking 上线：编码与 Agent 能力显著增强

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

Qwen3-VL 发布：旗舰 235B 模型开源，Instruct/Thinking 双版本登场

相关文章

Qwen3-Coder 升级发布：提升 Terminal Bench 表现，支持 Qwen Code/Claude Code 集成

Qwen3-Max-Instruct/Thinking 上线：编码与 Agent 能力显著增强

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

提交AI工具

请确认提交信息