Qwen-3-Next-80B-A3B仅3B激活

找到 1 篇相关文章

Qwen-3-Next-80B-A3B 曝光：极致稀疏 MoE，长上下文推理吞吐或增 10 倍

Qwen-3-Next-80B-A3B 即将发布，采用 A3B 架构，总参数 80B，但仅 3B 激活，实现极致稀疏与高效推理。据消息称，它在下游任务上超过 Qwen3-32B，训练成本低至十分之一，并在 32K 以上上下文场景下达到 10 倍以上推理吞吐。一、核心亮点 1、A3B 架构与极致稀疏...

AI资讯 • Admin • 2025/9/10

Qwen-3-Next-80B-A3B仅3B激活

Qwen-3-Next-80B-A3B 曝光：极致稀疏 MoE，长上下文推理吞吐或增 10 倍

推荐工具

提交AI工具

请确认提交信息