返回AI百科
RLVR 是什么?为什么推理模型火了之后,它比 RLHF 更常被提起

RLVR 是什么?为什么推理模型火了之后,它比 RLHF 更常被提起

AI百科 Admin 159 次浏览

RLVR 通常指 Reinforcement Learning with Verifiable Rewards,也就是“带可验证奖励的强化学习”。它最近会比 RLHF 更常被提起,核心原因不是 RLHF 失效了,而是推理模型兴起后,很多任务开始可以用“答案对不对”来直接打分,而不用全靠人类偏好做反馈。

它和 RLHF 的差别在哪

RLHF 更像让人类告诉模型“这个回答更好”;RLVR 更像给模型一道能验算的题,答对就加分,答错就减分。前者适合开放式对话、风格、帮助性;后者更适合数学、代码、逻辑推理、格式化任务这类能明确验证结果的场景。

维度RLHFRLVR
奖励来源人类偏好可验证结果
更适合开放式回答与对话体验推理、代码、数学、规则型任务
成本特点标注成本高验证器设计更关键

为什么现在它特别热

  • 推理模型越来越强调“做题能力”和中间步骤稳定性,RLVR 和这类目标天然更贴近。
  • 只要任务存在明确判分方式,RLVR 往往比纯人工偏好更可扩展。
  • 很多团队都在找“怎样让模型在逻辑和解题上更稳”的方法,RLVR 正好踩中这个需求。

但 RLVR 也不是万能的。它最怕的是任务根本没有清晰验证标准,或者验证器本身有漏洞。换句话说,它不是要替代 RLHF,而是更适合那批“答案能验”的任务。也正因为如此,推理模型越热,RLVR 这个词就越常被提到。

推荐工具

更多