GLM-4.5 bringt effizientes RL-Trainingsframework auf den Markt, das vollständig Open Source ist, um die groß angelegte Modelloptimierung zu unterstützen
Das Tsinghua University Knowledge Engineering Laboratory (THUDM) hat mit der Veröffentlichung der GLM-4.5-Modellserie sein selbst entwickeltes effizientes Reinforcement Learning (RL) Trainingsframework Slime offiziell als Open Source veröffentlicht. Dieses Framework ist für die Optimierung großer Modelle nach dem Training konzipiert, mit dem Ziel, die Effizienz der Inferenz und Datengenerierung erheblich zu verbessern und gleichzeitig die Effektivität des Trainings sicherzustellen.
1. Native Integration SGLang Inference Optimization
Slime wurde von Anfang an mit nativer SGLang-Integration entwickelt, wodurch die Inferenzoptimierungsfunktionen von SGLang direkt in den Trainingsprozess eingeführt werden. Dieser Ansatz reduziert nicht nur den Umschaltaufwand zwischen Training und Inferenz, sondern nutzt auch die Parallel- und Caching-Eigenschaften des Inferenzmoduls in vollem Umfang, wodurch der Gesamtprozess der Datengenerierung und des Trainings beschleunigt wird.
2. Unterstützung der synchronen und asynchronen Trainingsarchitektur
Beimtraditionellen RLHF-Training (Reinforcement Learning based on Human Feedback) wird die Geschwindigkeit der Datengenerierung häufig durch die Latenz eines einzelnen Knotens im synchronen Modus beeinflusst. Slime trennt die Trainings-Engine von der Umgebungs-Sampling-Engine auf Architekturebene, sodass sie im effizienten synchronen Modus ausgeführt oder flexibel in den asynchronen Modus umgeschaltet werden kann, wodurch Leistungsengpässe in der Rollout-Phase vermieden und die GPU-Auslastung verbessert wird.
3. Mixed-Precision-Computing verbessert die Leistung und Stabilität
Slime verwendet die FP8-Berechnung (8-Bit-Gleitkomma) in der Generierungsphase der Rollouts, um die Speicherauslastung zu reduzieren und die Rechengeschwindigkeit zu verbessern. In der Modelltrainingsphase wird die BF16-Genauigkeit (16-Bit-Gleitkomma) beibehalten, um die Stabilität und den Konvergenzeffekt des Trainings zu gewährleisten. Diese Mischgenauigkeitsstrategie stellt die Qualität der endgültigen Ausgabe des Modells unter Berücksichtigung der Leistung sicher.
4. Verteiltes Design: Tief integriert in Megatron
Slime basiert auf der verteilten Trainingsarchitektur von Megatron und ist nahtlos in SGLang integriert, um die Skalierbarkeit des verteilten Trainings zu gewährleisten und gleichzeitig den Austausch von Optimierungsergebnissen durch Inferenz- und Trainingsprozesse zu ermöglichen. Dieses tief integrierte Design macht slime nicht nur kompatibel mit GLM-4.5, sondern hat auch das Potenzial, schnell zwischen anderen großen Sprachmodellen zu migrieren.
5. Open Source und Community-Co-Konstruktion
Derzeitist slime auf GitHub vollständig Open Source und bietet Trainingsskripte, asynchronen Beispielcode und detaillierte Dokumentation. Entwickler können das Framework direkt wiederverwenden oder sekundäre darauf aufbauend entwickeln, um einen RL-Trainingsprozess zu erstellen, der sich an ihre eigenen Aufgaben anpasst. Diese Initiative bietet ein effizientes und flexibles Basiswerkzeug für die Optimierung großer Modelle in Wissenschaft und Industrie.
Weitere Informationen finden Sie auf der offiziellen Website: https://github.com/THUDM/slime