Soft Adaptive Policy Optimization(SAPO)算法论文在 arXiv 上发布,随后 Qwen 团队通过官方博客系统介绍这一面向大语言与多模态模型的强化学习训练方法。研究指出,现有基于硬截断(hard clipping)的策略优化在重要性比极端波动时要么梯度消失,要么梯度爆炸,尤其在混合专家(MoE)结构中更易导致训练不稳定、样本利用效率低下。
SAPO 用一个连续、可调“温度门控”替代传统硬边界,在序列级维持类似信任域约束的同时,对 token 级重要性进行自适应缩放,仅抑制严重偏离策略的部分,而保留接近在策略分布上的有效梯度。算法还允许不对称温度设置,以增强在高方差 MoE 模型中的鲁棒性。论文与实验显示,在相近训练预算下,SAPO 可支持更长时间稳定 RL 训练,并在 Qwen3-VL 系列模型的数学、代码与多模态任务中显著提升 Pass@1 等关键指标,为大模型 RL 调优提供更可扩展、可复用的基础。
常见问题
Q:SAPO 是什么?
A:SAPO 全称 Soft Adaptive Policy Optimization,是一种用于大模型 RL 调优的策略优化方法,强调平滑门控与自适应更新。
Q:它相对传统硬 clipping 的核心改进是什么?
A:SAPO 用连续、温度控制的门替代硬阈值,避免“全开/全关”导致的梯度突然消失或爆炸。
Q:为什么特别强调对 MoE 模型有优势?
A:MoE 结构本身会放大方差,SAPO 的不对称温度和细粒度 token 调节能减轻极端样本对训练稳定性的破坏。
Q:SAPO 在效果上有哪些具体收益?
A:实验报告称,可实现更长、更加稳定的 RL 训练过程,并在 Qwen3-VL 上带来更高的 Pass@1 与多任务性能提升。
Q:目前 SAPO 的研究与实现公开到什么程度?
A:算法细节和实验结果已通过论文与官方博客对外发布,便于研究者和工程团队进一步实现与评估。