阿里云宣布 Qwen3-VL-Flash 已在 Model Studio 上线,面向图像与视频理解提供“思考模式/非思考模式”两种推理路径。官方文档显示,qwen3-vl-flash 系列在非思考/思考模式下的上下文上限分别约为 260,096/258,048 tokens(按区间计费),并支持每张图像最高 16,384 tokens 的视觉输入。该系列强调更快的响应与更低的调用成本,适配长视频、长文档等高负载场景。
在能力侧,Model Studio 文档列出视频理解、事件定位与时间戳提取,以及 2D/3D 目标检测、空间关系与遮挡判断;同时覆盖文档解析、公式/表格识别与多语种 OCR,并提供启用或关闭“思考模式”(enable_thinking)的接口参数。官方渠道还称,相比开源 Qwen3-VL-30B-A3B 与 Qwen2.5-72B,新模型在速度、综合能力与成本上具优势;具体对比细节与第三方复测仍待后续披露。
常见问题
Q:Qwen3-VL-Flash 的上下文上限是多少?
A:文档列出非思考模式约 260,096 tokens、思考模式约 258,048 tokens,按 0–32K、32K–128K、128K–256K 分段计费。
Q:如何切换“思考模式/非思考模式”?
A:在 API 调用中通过 enable_thinking 参数控制;思考模型会先进行隐式推理再给出答案,非思考模型直接生成。
Q:支持哪些典型场景?
A:长视频与长文档问答/摘要,2D/3D 目标检测与空间定位,文档解析(含表格、公式)、多语种 OCR,以及基于视觉的代理任务控制。
Q:与开源 Qwen3-VL-30B-A3B、Qwen2.5-72B 的关系?
A:官方宣称在速度、能力与成本上更优,但属于厂商口径;建议关注后续公开基准与第三方评测。
Q:在哪里接入与查看价格?
A:可在阿里云 Model Studio 的视觉理解文档与模型/计费页面查看 qwen3-vl-flash 的上下文、分段价格与示例代码,并通过控制台文档页获取 API 说明。