Qu’est-ce que la formation post-formation ? La raison pour laquelle de nombreux modèles creusent vraiment cet écart, c’est après l’entraînement

Le post-entraînement fait référence au processus par lequel un modèle continue de devenir plus utile, stable et en accord avec la tâche cible grâce à des étapes supplémentaires d’entraînement après avoir terminé une pré-formation à grande échelle. Beaucoup de gens se demandent si le modèle est solide ou non, et leur première réaction est de se concentrer sur la quantité de données préalables à l’entraînement et l’échelle des paramètres, mais aujourd’hui l’industrie voit de plus en plus clairement que c’est souvent l’après-formation qui transforme vraiment « mémoriser les connaissances » en « être capable de bien faire ».

La pré-formation ressemble davantage à poser des fondations, permettant au modèle d’apprendre les schémas linguistiques, la distribution des connaissances et les associations mondiaux ; L’après-entraînement ressemble davantage à la décoration et à l’accord, lui indiquant comment répondre, quand refuser, comment se rapprocher des préférences humaines et comment accomplir des tâches spécifiques. De ce fait, la différence ressentie par l’utilisateur à la fin peut être très grande sur deux modèles à base rapprochée, et la différence vient souvent du post-entraînement.

Il n’y a pas une seule façon de faire après la formation. Les plus courants incluent l’ajustement fin supervisé, qui permet au modèle d’apprendre des exemples de haute qualité ; optimisation des préférences pour rapprocher le modèle de la façon dont les humains aiment répondre ; et une formation spécialisée sur l’inférence, l’appel d’outils et les limites de sécurité. Après la popularité des modèles d’inférence, les mots RLHF et RLVR sont apparus fréquemment, qui sont essentiellement des chemins différents dans la catégorie du post-entraînement.

Pourquoi tout le monde y prête-t-il autant attention maintenant ? Parce que la concurrence des grands modèles ne se limite plus à « qui consomme le plus de corpus ». La pré-formation devient de plus en plus coûteuse, et la guerre des ressources se rapproche de plus en plus ; Ensuite, la formation détermine directement l’expérience produit. Que l’utilisateur perçoive la stabilité, qu’il soit obéissant, qu’il puisse appeler des outils, qu’il puisse raisonner en plusieurs étapes, ou qu’il puisse réconcilier à l’aveugle, beaucoup d’entre eux ne sont pas visibles d’un coup d’œil à partir des paramètres de base, mais les résultats de l’après-entraînement.

Cependant, l’après-formation a aussi un prix. Cela introduit un biais de cible. Vous avez une sécurité renforcée, et le modèle peut être plus conservateur ; Si vous renforcez le code ou les mathématiques, le style général de chat peut changer ; Vous pouvez aussi payer des coûts d’inférence plus élevés pour rendre le modèle plus « réfléchi ». Ainsi, l’après-formation ne concerne pas le fait que plus on soit le mieux, mais que l’objectif est clair, que les données soient propres et que l’évaluation puisse suivre.

Un autre malentendu courant est de voir l’après-entraînement comme « compléter les connaissances au modèle ». Cela peut certainement entraîner une augmentation des capacités, mais le rôle central n’est souvent pas d’élargir la base de faits, mais d’ajuster le comportement. Il détermine comment le modèle organise les réponses, fait des compromis et affronte les situations limites. En d’autres termes, c’est plus proche de la mise en forme comportementale qu’un simple ajout de mémoire.

Aujourd’hui, de nombreux modèles commencent à mettre davantage l’accent sur la post-formation lors de leur sortie, ce qui montre en fait que l’industrie a évolué. Tout le monde ne se limite plus à savoir qui a une grande fondation, mais plutôt à savoir qui peut transformer la base en un système véritablement utilisable, contrôlable et en ligne. C’est pourquoi de nombreux modèles élargissent vraiment l’écart, non pas avant la formation, mais après la formation.

Articles connexes

Qu’est-ce que l’ancrage ? Pourquoi de plus en plus de recherches par IA mettent l’accent sur « apporter des réponses sources »

Qu’est-ce que le calcul en temps d’inférence ? Pourquoi tout le monde a-t-il commencé à recalculer la valeur de « réfléchir un moment » à l’ère des modèles de raisonnement ?

Qu’est-ce que les évaluations IA ? Pourquoi évaluez-vous les applications d’IA avant de les lancer ?

Qu’est-ce que le réglage fin de LoRA ? Pourquoi peut-on entraîner des modèles dédiés à un coût aussi bas ?

Outils Recommandés