RLVR은 일반적으로 검증 가능한 보상을 가진 강화 학습(Reinforcement Learning with Verifiable Rewards)을 의미합니다. 핵심 이유는 RLHF가 실패했기 때문이 아니라, 추론 모델의 등장으로 많은 과제가 인간의 선호에만 의존하지 않고 "답은 맞다"로 직접 점수를 매길 수 있기 때문입니다.
RLHF와 무엇이 다른가요?
RLHF는 사람이 모델에게 "이 답이 더 낫다"고 말하는 것과 비슷합니다; RLVR은 모델에 검증 가능한 질문을 주는 것과 비슷하며, 정답에는 추가 점수, 틀린 답에는 감점이 적용됩니다. 전자는 열린 대화, 스타일, 도움이 잘 어울리며; 후자는 수학, 코드, 논리적 추론, 서식 작업 등 결과를 명확히 검증할 수 있는 상황에 더 적합합니다.
| 치수 | RLHF | RLVR |
|---|---|---|
| 보상의 출처 | 인간의 선호 | 검증 가능한 결과 |
| 더 적합해 | 개방형 답변 및 대화 경험 | 추론, 코드, 수학, 규칙 기반 과제 |
| 비용 특성 | 높은 라벨링 비용 | 검증기 설계가 더 중요합니다 |
왜 지금 특히 더운 거야
- 추론 모델은 점점 더 '문제 해결 능력'과 중간 단계 안정성을 강조하며, RLVR은 자연스럽게 이러한 목표에 더 가깝습니다.
- 과제를 명확하게 평가하는 방법이 있는 한, RLVR은 순수한 인간 선호보다 더 확장성이 뛰어납니다.
- 많은 팀이 모델을 논리적이고 문제 해결 측면에서 더 안정적으로 만들 방법을 찾고 있는데, RLVR은 바로 그 요구를 충족시켰습니다.
하지만 RLVR도 만병통치약은 아닙니다. 가장 큰 우려는 이 작업이 명확한 검증 기준이 전혀 없거나, 검증자 자체에 취약점이 있다는 점입니다. 즉, RLHF를 대체하려는 것이 아니라 "답변 테스트" 작업에 더 적합합니다. 이 때문에 추론 모델이 더 뜨거울수록 RLVR이라는 단어가 더 자주 언급됩니다.