Das Paper zum Soft Adaptive Policy Optimization (SAPO)-Algorithmus wurde auf arXiv veröffentlicht, und anschließend stellte das Qwen-Team diese Reinforcement-Learning-Trainingsmethode für große Sprach- und Multimodalmodelle über das offizielle Blogsystem vor. Es wird darauf hingewiesen, dass die bestehende Strategieoptimierung auf Basis von Hard Clipping entweder verschwindet oder explodiert, wenn die Bedeutung größer ist als extreme Schwankungen, insbesondere in der gemischten Expertenstruktur (MoE), was eher zu instabilem Training und niedriger Stichprobennutzungseffizienz führt.
SAPO ersetzt die traditionelle harte Grenze durch ein kontinuierliches, einstellbares "Temperaturgating", das die Bedeutung auf Token-Ebene adaptiv skaliert, während vertrauensdomänenähnliche Einschränkungen auf serieller Ebene beibehalten werden, wobei nur die Teile unterdrückt werden, die stark von der Policy abweichen, während der effektive Gradient nahe an der Policy-Verteilung erhalten bleibt. Der Algorithmus ermöglicht außerdem asymmetrische Temperatureinstellungen, um die Robustheit in MoE-Modellen mit hoher Varianz zu erhöhen. Arbeiten und Experimente zeigen, dass SAPO unter ähnlichen Trainingsbudgets stabiles RL-Training über einen längeren Zeitraum unterstützen und wichtige Indikatoren wie Pass@1 in Mathematik, Code und multimodalen Aufgaben der Qwen3-VL-Serienmodelle deutlich verbessern kann, wodurch eine skalierbarere und wiederverwendbare Grundlage für die RL-Abstimmung großer Modelle bereitgestellt wird.
FAQs
F: Was ist SAPO?
A: SAPO steht für Soft Adaptive Policy Optimization, eine Politikoptimierungsmethode für das RL-Tuning großer Modelle, mit Schwerpunkt auf Smooth Gating und adaptiven Updates.
F: Was sind die grundlegenden Verbesserungen gegenüber traditionellem Hard Clipping?
A: SAPO ersetzt harte Schwellenwerte durch durchgehende, temperaturkontrollierte Türen, um ein plötzliches Verschwinden oder eine Explosion durch "Voll an/alles aus" zu vermeiden.
F: Warum liegt der besondere Schwerpunkt auf den Vorteilen gegenüber dem MoE-Modell?
A: Die MoE-Struktur selbst verstärkt die Varianz, und SAPOs asymmetrische Temperatur sowie die feinkörnige Token-Anpassung können den Schaden an der Trainingsstabilität durch extreme Stichproben abmildern.
F: Was sind die spezifischen Vorteile von SAPO in Bezug auf die Leistung?
A: Experimentelle Berichte zeigen, dass es einen längeren und stabileren RL-Trainingsprozess erreichen kann und höhere Verbesserungen in Pass@1 und Multitasking-Leistung auf dem Qwen3-VL bringt.
F: Inwieweit ist die Forschung und Umsetzung von SAPO offen?
A: Die Details des Algorithmus und der experimentellen Ergebnisse wurden in Fachartikeln und offiziellen Blogs veröffentlicht, um von Forschern und Ingenieurteams weiter implementiert und bewertet zu werden.