RLVR steht typischerweise für Reinforcement Learning with Verifiable Rewards. Der Hauptgrund ist nicht, dass RLHF gescheitert ist, sondern dass mit dem Aufkommen von Denkmodellen viele Aufgaben direkt mit "die Antwort ist richtig" bewertet werden können, anstatt sich ausschließlich auf menschliche Präferenzen zu verlassen.
Was ist der Unterschied zwischen ihm und RLHF?
RLHF ist eher so, als würde ein Mensch dem Modell sagen: "Diese Antwort ist besser"; RLVR ist eher so, als würde man dem Modell eine Frage geben, die verifiziert werden kann, mit zusätzlichen Punkten für richtige Antworten und Subtrahierungen für falsche Antworten. Ersteres eignet sich für offenen Dialog, Stil und Hilfsbereitschaft; Letzteres eignet sich besser für Szenarien wie Mathematik, Code, logisches Denken, Formatierungsaufgaben usw., in denen die Ergebnisse eindeutig überprüft werden können.
| Abmessungen | RLHF | RLVR |
|---|---|---|
| Quelle der Belohnungen | Menschliche Präferenz | Überprüfbare Ergebnisse |
| Passender | Offene Antworten und Gesprächserfahrung | Schlussfolgerung, Code, Mathematik, regelbasierte Aufgaben |
| Kostenmerkmale | Hohe Etikettierungskosten | Das Design des Validators ist entscheidender |
Warum ist es jetzt besonders heiß?
- Das Schlussfolgerungsmodell legt zunehmend Wert auf "Problemlösungsfähigkeit" und Stabilität von Zwischenschritten, und RLVR ist diesen Zielen naturgemäß näher.
- Solange es eine klare Möglichkeit gibt, Aufgaben zu bewerten, ist RLVR meist skalierbarer als rein menschliche Präferenz.
- Viele Teams suchen nach Möglichkeiten, das Modell in Bezug auf Logik und Problemlösung stabiler zu machen, und RLVR erfüllt genau diesen Bedarf.
Aber RLVR ist auch kein Allheilmittel. Die größte Befürchtung ist, dass die Aufgabe überhaupt keinen klaren Verifikationsstandard hat oder dass der Validator selbst Schwachstellen hat. Mit anderen Worten: Es ist nicht dazu gedacht, RLHF zu ersetzen, sondern eignet sich eher für die "Antwort-getestete" Aufgabe. Deshalb gilt: Je heißer das Inferenzmodell, desto häufiger wird das Wort RLVR erwähnt.