Retour à L’IA est open source
GLM-4.5 open-source slime : une analyse complète du cadre de formation RL efficace

GLM-4.5 open-source slime : une analyse complète du cadre de formation RL efficace

L’IA est open source Admin 13 vues

GLM-4.5 lance un cadre de formation RL efficace, entièrement open source pour aider à l’optimisation des modèles à grande échelle Le

laboratoire d’ingénierie des connaissances de l’Université Tsinghua (THUDM) a officiellement ouvert son cadre de formation d’apprentissage par renforcement efficace (RL) auto-développé avec la sortie de la série de modèles GLM-4.5. Ce cadre est conçu pour l’optimisation post-entraînement de modèles à grande échelle, dans le but d’améliorer considérablement l’efficacité de l’inférence et de la génération de données tout en garantissant l’efficacité de l’entraînement.


1. Intégration native SGLang Inference Optimization

slime est construit avec l’intégration native SGLang dès le début de la conception, introduisant directement les capacités d’optimisation d’inférence de SGLang dans le processus d’entraînement. Cette approche réduit non seulement la surcharge de commutation entre l’entraînement et l’inférence, mais utilise également pleinement les caractéristiques de parallèle et de mise en cache du moteur d’inférence, accélérant ainsi le processus global de génération de données et d’entraînement.


2. Prise en charge de l’architecture d’entraînement synchrone et asynchrone

Dans

l’entraînement traditionnel RLHF (apprentissage par renforcement basé sur le retour d’information humain), la vitesse de génération des données est souvent affectée par la latence d’un seul nœud en mode synchrone. Slime sépare le moteur d’entraînement du moteur d’échantillonnage d’environnement au niveau architectural, ce qui lui permet de s’exécuter en mode synchrone efficace ou de passer de manière flexible en mode asynchrone, évitant ainsi les goulets d’étranglement des performances lors de l’étape de déploiements et améliorant l’utilisation du GPU.


3. Le calcul en précision mixte améliore les performances et la stabilité

Slime utilise le calcul FP8 (8 bits à virgule flottante) dans la phase de génération des déploiements pour réduire l’utilisation de la mémoire et améliorer la vitesse de calcul. Dans l’étape d’entraînement du modèle, la précision BF16 (virgule flottante 16 bits) est maintenue pour garantir la stabilité et l’effet de convergence de l’entraînement. Cette stratégie de précision de mixage permet d’assurer la qualité du rendu final du modèle tout en tenant compte des performances.


4. Conception distribuée Profondément intégrée à Megatron

slime est construit sur l’architecture de formation distribuée de Megatron et intégré de manière transparente à SGLang pour garantir l’évolutivité de la formation distribuée tout en permettant aux processus d’inférence et de formation de partager les résultats d’optimisation. Cette conception profondément intégrée rend slime non seulement compatible avec GLM-4.5, mais a également le potentiel de migrer rapidement parmi d’autres grands modèles de langage.


5. Co-construction open source et communautaire

Actuellement

, slime est entièrement open source sur GitHub, fournissant des scripts de formation, des exemples de code asynchrones et une documentation détaillée. Les développeurs peuvent réutiliser directement le cadre ou développer un développement secondaire par-dessus celui-ci pour créer un processus de formation RL qui s’adapte à leurs propres tâches. Cette initiative fournit un outil de base efficace et flexible pour l’optimisation de grands modèles dans le milieu universitaire et l’industrie.


Voir le site officiel pour plus de détails : https://github.com/THUDM/slime

GLM-4.5 cadre d’entraînement RL efficace slime Slime framework open source Optimisation de l’inférence intégrée native SGLang Optimisation post-entraînement du grand modèle RLHF L’efficacité de l’entraînement des grands modèles de RL a été améliorée FP8 inférence BF16 entraînement précision mixte Stabilité et performances de calcul en précision mixte Intégration profonde distribuée de Megatron Briser le goulot d’étranglement des performances lors de la phase de déploiement Méthode d’optimisation de l’utilisation du GPU Accélération de l’inférence et de la génération de données Le moteur de formation est séparé de l’échantillonnage environnemental Utilisation du parallélisme du cache d’inférence Slime prend en charge l’entraînement synchrone et asynchrone Slime est compatible avec une variété de grands modèles de langage GLM-4.5 agit en synergie avec le slime L’architecture d’entraînement RL asynchrone en pratique Optimisation efficace du mode de synchronisation Tsinghua THUDM a libéré du slime Scripts de formation et documentation open source Co-construction de la communauté open source GitHub Intégration de l’inférence et de l’entraînement de grands modèles Bonnes pratiques de formation RLHF Application de SGLang dans la formation RL Protocole d’entraînement parallèle Megatron Le pipeline d’entraînement est construit d’après le grand modèle La génération de données et la formation sont fermées Capacité de migration rapide du cadre Slime Recommandation d’un outil d’optimisation de modèles volumineux Comparaison de cadres de formation RL efficaces

Outils Recommandés

Plus