Qwen3-Next-80B-A3B 上线:3B 激活的超稀疏 MoE,长上下文吞吐新标杆 Qwen3-Next-80B-A3B 主打 80B 总参数、每 Token 仅 3B 激活,采用 Hybrid 架构(Gated DeltaNet+Gated Attention)、Ultra-sparse MoE(512 专家,10 路由+1 共享)与 Multi-Token Prediction... AI资讯 • Admin • 2025/9/12 53