L’article sur l’algorithme Soft Adaptive Policy Optimization (SAPO) a été publié sur arXiv, puis l’équipe Qwen a introduit cette méthode d’entraînement par renforcement pour les grands langages et les modèles multimodaux via le système officiel de blogs. Il est souligné que l’optimisation stratégique existante basée sur le hard clipping disparaît ou explose lorsque l’importance dépasse les fluctuations extrêmes, notamment dans la structure mixte expert (MoE), qui conduit plus souvent à un entraînement instable et à une faible efficacité d’utilisation des échantillons.
SAPO remplace la frontière rigide traditionnelle par une « porte de température » continue et ajustable qui scale de manière adaptative l’importance au niveau des jetons tout en maintenant des contraintes similaires au domaine de confiance au niveau série, ne supprimant que les parties qui s’écartent fortement de la politique tout en conservant le gradient effectif proche de la distribution de la politique. L’algorithme permet également des réglages asymétriques de température pour améliorer la robustesse dans les modèles MoE à haute variance. Des articles et des expériences montrent qu’avec des budgets d’entraînement similaires, SAPO peut soutenir un entraînement RL stable sur une période plus longue, et améliorer significativement des indicateurs clés tels que le Pass@1 en mathématiques, en code et dans les tâches multimodales des modèles de la série Qwen3-VL, offrant une base plus évolutive et réutilisable pour l’ajustement RL de grands modèles.
FAQ
Q : Qu’est-ce que le SAP ?
R : SAPO signifie Soft Adaptive Policy Optimization, qui est une méthode d’optimisation des politiques pour l’ajustement RL de grands modèles, mettant l’accent sur le gating fluide et les mises à jour adaptatives.
Q : Quelles sont ses principales améliorations par rapport au hard clipping traditionnel ?
R : SAPO remplace les seuils stricts par des portes continues à température contrôlée pour éviter une disparition soudaine de gradient ou une explosion causée par un « allumé total/tout éteint ».
Q : Pourquoi y a-t-il une importance particulière sur les avantages par rapport au modèle MoE ?
R : La structure MoE elle-même amplifie la variance, et la température asymétrique ainsi que l’ajustement fin des jetons de SAPO peuvent atténuer les dommages à la stabilité de l’entraînement causés par des échantillons extrêmes.
Q : Quels sont les avantages spécifiques de SAPO en termes de performance ?
R : Des rapports expérimentaux montrent qu’il peut permettre un processus d’entraînement RL plus long et plus stable, et d’apporter des améliorations de performance Pass@1 et multitâche plus élevées sur le Qwen3-VL.
Q : Dans quelle mesure la recherche et la mise en œuvre de SAP sont-elles ouvertes ?
R : Les détails de l’algorithme et des résultats expérimentaux ont été publiés via des articles et des blogs officiels pour une mise en œuvre et une évaluation ultérieures par les chercheurs et les équipes d’ingénierie.