视觉—语言一体化升级：Qwen3-VL-Flash 提供代理控制、长上下文与视频时序理解

AI资讯 • Admin • 2025/10/17 • 296 次浏览

阿里云宣布 Qwen3-VL-Flash 已在 Model Studio 上线，面向图像与视频理解提供“思考模式/非思考模式”两种推理路径。官方文档显示，qwen3-vl-flash 系列在非思考/思考模式下的上下文上限分别约为 260,096/258,048 tokens（按区间计费），并支持每张图像最高 16,384 tokens 的视觉输入。该系列强调更快的响应与更低的调用成本，适配长视频、长文档等高负载场景。

在能力侧，Model Studio 文档列出视频理解、事件定位与时间戳提取，以及 2D/3D 目标检测、空间关系与遮挡判断；同时覆盖文档解析、公式/表格识别与多语种 OCR，并提供启用或关闭“思考模式”（enable_thinking）的接口参数。官方渠道还称，相比开源 Qwen3-VL-30B-A3B 与 Qwen2.5-72B，新模型在速度、综合能力与成本上具优势；具体对比细节与第三方复测仍待后续披露。

常见问题

Q：Qwen3-VL-Flash 的上下文上限是多少？

A：文档列出非思考模式约 260,096 tokens、思考模式约 258,048 tokens，按 0–32K、32K–128K、128K–256K 分段计费。

Q：如何切换“思考模式/非思考模式”？

A：在 API 调用中通过 enable_thinking 参数控制；思考模型会先进行隐式推理再给出答案，非思考模型直接生成。

Q：支持哪些典型场景？

A：长视频与长文档问答/摘要，2D/3D 目标检测与空间定位，文档解析（含表格、公式）、多语种 OCR，以及基于视觉的代理任务控制。

Q：与开源 Qwen3-VL-30B-A3B、Qwen2.5-72B 的关系？

A：官方宣称在速度、能力与成本上更优，但属于厂商口径；建议关注后续公开基准与第三方评测。

Q：在哪里接入与查看价格？

A：可在阿里云 Model Studio 的视觉理解文档与模型/计费页面查看 qwen3-vl-flash 的上下文、分段价格与示例代码，并通过控制台文档页获取 API 说明。

视觉—语言一体化升级：Qwen3-VL-Flash 提供代理控制、长上下文与视频时序理解

相关文章

OpenAI拟推“用 ChatGPT 登录”方案：企业可将模型使用成本转嫁给终端用户

OpenAI 与 King Estate 发布声明：应请求，Sora 暂停生成马丁·路德·金形象

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

视觉—语言一体化升级：Qwen3-VL-Flash 提供代理控制、长上下文与视频时序理解

相关文章

OpenAI拟推“用 ChatGPT 登录”方案：企业可将模型使用成本转嫁给终端用户

OpenAI 与 King Estate 发布声明：应请求，Sora 暂停生成马丁·路德·金形象

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

提交AI工具

请确认提交信息