SAPO在token级自适应缩放的重要作用

找到 1 篇相关文章

Qwen 团队提出 Soft Adaptive Policy Optimization 提升大模型 RL 稳定性

Soft Adaptive Policy Optimization（SAPO）算法论文在 arXiv 上发布，随后 Qwen 团队通过官方博客系统介绍这一面向大语言与多模态模型的强化学习训练方法。研究指出，现有基于硬截断（hard clipping）的策略优化在重要性比极端波动时要么梯度消失，要么梯...

AI资讯 • Admin • 2025/12/10

215

SAPO在token级自适应缩放的重要作用

Qwen 团队提出 Soft Adaptive Policy Optimization 提升大模型 RL 稳定性

推荐工具

提交AI工具

请确认提交信息