返回AI资讯
Qwen发布Qwen3-VL-30B-A3B Instruct/Thinking:3B激活参数、支持FP8的新多模态组合

Qwen发布Qwen3-VL-30B-A3B Instruct/Thinking:3B激活参数、支持FP8的新多模态组合

AI资讯 Admin 211 次浏览

Qwen 官方于 2025 年 10 月 4 日在其代码库公告推出 Qwen3-VL-30B-A3B-Instruct 与 -Thinking 两个新多模态模型,并同步提供 FP8 量化版本;此前 9 月已发布更大规模的 Qwen3-VL-235B-A22B,并开始提供 FP8 变体。30B-A3B 采用 Mixture-of-Experts 架构,单次推理约 3B 激活参数,目标是在保持 Qwen3-VL 能力覆盖的同时显著提升吞吐与部署效率。官方渠道称其在 STEM、VQA、OCR、视频理解与 Agent 等任务上可与 GPT-5-Mini、Claude 4 Sonnet 抗衡,个别基准测试“经常领先”,但独立评测尚待跟进。

目前 Qwen Chat 放出可选模型入口,HuggingFace 与 ModelScope 上线相关权重与量化版本,API 页面亦列出系列模型。需要注意的是,发布帖与仓库日志属官方信息,部分性能对比为厂商自述;在缺乏第三方复现实验前,不宜将“同等/超越”作为定论。对于关注成本与部署的团队,FP8 版本旨在降低显存与带宽占用、提升吞吐,但具体收益依赖硬件与推理栈。建议在目标数据集与推理场景上做 A/B 实测后再行切换生产。

常见问题

Q:Qwen3-VL-30B-A3B 何时发布?

A:根据官方仓库新闻条目,发布时间为 2025 年 10 月 4 日;相关博客与模型卡在当日及随后逐步更新。

Q:所谓“3B 激活参数”是什么意思?

A:这是 MoE(专家混合)架构的特征,完整模型约 30B 参数,但每次前向仅激活约 3B,有助于提高性价比与吞吐。

Q:FP8 版本有什么用?

A:FP8 量化面向推理效率与资源占用优化,原则上可降低显存与带宽需求并提升吞吐,收益取决于硬件与实现。

Q:与 GPT-5-Mini、Claude 4 Sonnet 的对比可信么?

A:属于厂商自述,尚缺足量第三方复现实验与公开基准明细,应视为宣传口径,建议等待独立评测。

Q:哪里可以体验或获取权重?

A:Qwen Chat 提供在线试用,HuggingFace 与 ModelScope 有模型与量化版本;企业可通过阿里云 Model Studio 的 API 访问系列模型。

推荐工具

更多