Qwen 官方于 2025 年 10 月 4 日在其代码库公告推出 Qwen3-VL-30B-A3B-Instruct 与 -Thinking 两个新多模态模型,并同步提供 FP8 量化版本;此前 9 月已发布更大规模的 Qwen3-VL-235B-A22B,并开始提供 FP8 变体。30B-A3B 采用 Mixture-of-Experts 架构,单次推理约 3B 激活参数,目标是在保持 Qwen3-VL 能力覆盖的同时显著提升吞吐与部署效率。官方渠道称其在 STEM、VQA、OCR、视频理解与 Agent 等任务上可与 GPT-5-Mini、Claude 4 Sonnet 抗衡,个别基准测试“经常领先”,但独立评测尚待跟进。
目前 Qwen Chat 放出可选模型入口,HuggingFace 与 ModelScope 上线相关权重与量化版本,API 页面亦列出系列模型。需要注意的是,发布帖与仓库日志属官方信息,部分性能对比为厂商自述;在缺乏第三方复现实验前,不宜将“同等/超越”作为定论。对于关注成本与部署的团队,FP8 版本旨在降低显存与带宽占用、提升吞吐,但具体收益依赖硬件与推理栈。建议在目标数据集与推理场景上做 A/B 实测后再行切换生产。
常见问题
Q:Qwen3-VL-30B-A3B 何时发布?
A:根据官方仓库新闻条目,发布时间为 2025 年 10 月 4 日;相关博客与模型卡在当日及随后逐步更新。
Q:所谓“3B 激活参数”是什么意思?
A:这是 MoE(专家混合)架构的特征,完整模型约 30B 参数,但每次前向仅激活约 3B,有助于提高性价比与吞吐。
Q:FP8 版本有什么用?
A:FP8 量化面向推理效率与资源占用优化,原则上可降低显存与带宽需求并提升吞吐,收益取决于硬件与实现。
Q:与 GPT-5-Mini、Claude 4 Sonnet 的对比可信么?
A:属于厂商自述,尚缺足量第三方复现实验与公开基准明细,应视为宣传口径,建议等待独立评测。
Q:哪里可以体验或获取权重?
A:Qwen Chat 提供在线试用,HuggingFace 与 ModelScope 有模型与量化版本;企业可通过阿里云 Model Studio 的 API 访问系列模型。