Retour à Encyclopédie de l’IA
Qu’est-ce que le RLVR ? Pourquoi le modèle d’inférence est-il mentionné plus souvent que RLHF après sa popularité ?

Qu’est-ce que le RLVR ? Pourquoi le modèle d’inférence est-il mentionné plus souvent que RLHF après sa popularité ?

Encyclopédie de l’IA Admin 159 vues

RLVR signifie généralement Apprentissage par renforcement avec récompenses vérifiables. La raison principale n’est pas que le RLHF ait échoué, mais qu’avec l’essor des modèles de raisonnement, de nombreuses tâches peuvent être notées directement par « la réponse est correcte » au lieu de se fier uniquement aux préférences humaines.

Quelle est la différence entre ce système et RLHF ?

RLHF, c’est plutôt comme un humain qui dit au modèle « cette réponse est meilleure » ; RLVR ressemble plutôt à donner au modèle une question vérifiable, avec des points supplémentaires pour les bonnes réponses et des soustraitions pour les mauvaises réponses. La première convient au dialogue ouvert, au style et à l’aide ; Cette dernière option convient davantage à des scénarios tels que les mathématiques, le code, le raisonnement logique, les tâches de formatage, etc., où les résultats peuvent être clairement vérifiés.

DimensionsRLHFRLVR
Source des récompensesPréférence humaineRésultats vérifiables
Plus adaptéRéponses ouvertes et expérience conversationnelleRaisonnement, code, mathématiques, tâches basées sur des règles
Caractéristiques de coûtCoût élevé d’étiquetageLa conception du validateur est plus critique

Pourquoi il fait particulièrement chaud maintenant

  • Le modèle de raisonnement met de plus en plus l’accent sur la « capacité à résoudre des problèmes » et la stabilité des échelons intermédiaires, et le RLVR se rapproche naturellement de ces objectifs.
  • Tant qu’il existe un moyen clair de noter les tâches, RLVR tend à être plus évolutif que la préférence purement humaine.
  • De nombreuses équipes cherchent des moyens de rendre le modèle plus stable en termes de logique et de résolution de problèmes, et RLVR répond justement à ce besoin.

Mais RLVR n’est pas non plus une panacée. Sa plus grande crainte est que la tâche ne dispose pas du tout d’une norme de vérification claire, ou que le validateur lui-même présente des vulnérabilités. En d’autres termes, il n’est pas destiné à remplacer le RLHF, mais est plus adapté à la tâche « testée par réponse ». De ce fait, plus le modèle d’inférence est chaud, plus le mot RLVR est souvent mentionné.

Outils Recommandés

Plus