RLVRは通常、検証可能な報酬を伴う強化学習の略です。 その根本的な理由は、RLHFが失敗したことではなく、推論モデルの台頭により、多くの課題が人間の好みに頼るのではなく、「答えは正しい」という点数で直接評価できるようになったことです。
RLHFとの違いは何ですか?
RLHFは、人間がモデルに「この答えの方が良い」と伝えるようなものです。 RLVRは、モデルに検証可能な問題を与えるようなもので、正解には追加ポイント、間違った答えには減算が加点されます。 前者はオープンな対話、スタイル、そして助け合いに適しています。 後者は、数学、コード、論理的推論、フォーマット作成タスクなど、結果を明確に検証できるシナリオにより適しています。
| 寸法 | RLHF | RLVR |
|---|---|---|
| 報酬の源泉 | 人間の好み | 検証可能な結果 |
| より適している | オープンエンドの回答と会話体験 | 推論、コード、数学、ルールベースのタスク |
| コスト特性 | 高いラベリングコスト | バリデーター設計の方がより重要です |
なぜ今は特に暑いのですか
- 推論モデルはますます「問題解決能力」と中間段階の安定性を強調しており、RLVRは自然とこれらの目標により近いです。
- タスクを明確に評価する方法があれば、RLVRは単なる人間の好みよりもスケーラブルである傾向があります。
- 多くのチームは、論理的かつ問題解決の面でモデルをより安定させる方法を探しており、RLVRはまさにそのニーズに応えています。
しかし、RLVRも万能薬ではありません。 最大の懸念は、タスクに明確な検証基準が全く存在しないか、バリデーター自体に脆弱性があることです。 言い換えれば、RLHFの代替を意図したものではなく、「回答テスト」タスクにより適しているのです。 このため、推論モデルが熱いほど「RLVR」という言葉がより頻繁に言及されます。