Qwen-3-Next-80B-A3B 曝光:极致稀疏 MoE,长上下文推理吞吐或增 10 倍 Qwen-3-Next-80B-A3B 即将发布,采用 A3B 架构,总参数 80B,但仅 3B 激活,实现极致稀疏与高效推理。据消息称,它在下游任务上超过 Qwen3-32B,训练成本低至十分之一,并在 32K 以上上下文场景下达到 10 倍以上推理吞吐。 一、核心亮点 1、A3B 架构与极致稀疏... AI资讯 • Admin • 2025/9/10 21