ソフト適応政策最適化(SAPO)アルゴリズムに関する論文はarXivに掲載され、その後Qwenチームは公式ブログシステムを通じて大規模言語およびマルチモーダルモデル向けの強化学習トレーニング手法を導入しました。 ハードクリッピングに基づく既存の戦略最適化は、特に混合エキスパート(MoE)構造において極端な変動を超えると消失または爆発的に拡大することが指摘されています。これは不安定な訓練やサンプル利用効率の低下につながる可能性が高いです。
SAPOは従来のハードバウンダリーを連続的で可変可能な「温度ゲーティング」に置き換え、トークンレベルの重要度を適応的にスケールしつつ、シリアルレベルでの信頼ドメインのような制約を維持し、ポリシーから大きく逸脱する部分のみを抑制しつつ、ポリシー分布に近い効果的勾配を維持します。 また、高分散のMoEモデルにおける非対称温度設定も可能にし、堅牢性を高めます。 論文や実験は、同様の訓練予算の下でSAPOがより長期間にわたり安定した強化学習をサポートできること、数学、コード、Qwen3-VLシリーズモデルのマルチモーダルタスクにおけるPass@1などの主要指標を大幅に改善し、大規模モデルの強化学習のよりスケーラブルで再利用可能な基盤を提供することを示しています。
よくある質問
Q: SAPOとは何ですか?
A: SAPOはSoft Adaptive Policy Optimization(ソフト適応ポリシー最適化)の略で、大規模モデルの強化学習(RL)を最適化するポリシー最適化手法で、スムーズなゲートと適応型更新を重視しています。
Q: 従来のハードクリッピングに比べて、その主な改善点は何ですか?
A: SAPOは、突然の勾配消失や「全開/全オフ」による爆発を防ぐため、ハードスレッショルドを連続的かつ温度管理されたドアに置き換えています。
Q: なぜMoEモデルよりも利点に特に重点が置かれているのですか?
A: MoE構造自体が分散を増幅し、SAPOの非対称温度と細かいトークン調整は、極端なサンプルによるトレーニング安定性へのダメージを軽減できます。
Q: SAPOの具体的な性能面の利点は何ですか?
A: 実験報告によると、より長く安定した強化学習(RL)トレーニングを実現でき、Qwen3-VLのPass@1やマルチタスク性能の向上ももたらせることが示されています。
Q: SAPOの研究と実施はどの程度公開されていますか?
A: アルゴリズムの詳細と実験結果は、研究者やエンジニアリングチームによるさらなる実装と評価のために論文や公式ブログを通じて公開されています。