Qwen 团队提出 Soft Adaptive Policy Optimization 提升大模型 RL 稳定性
Soft Adaptive Policy Optimization(SAPO)算法论文在 arXiv 上发布,随后 Qwen 团队通过官方博客系统介绍这一面向大语言与多模态模型的强化学习训练方法。研究指出,现有基于硬截断(hard clipping)的策略优化在重要性比极端波动时要么梯度消失,要么梯...
AI资讯 • Admin •
199
找到 1 篇相关文章