可验证奖励

找到 1 篇相关文章

RLVR 是什么？为什么推理模型火了之后，它比 RLHF 更常被提起

RLVR 通常指 Reinforcement Learning with Verifiable Rewards，也就是“带可验证奖励的强化学习”。它最近会比 RLHF 更常被提起，核心原因不是 RLHF 失效了，而是推理模型兴起后，很多任务开始可以用“答案对不对”来直接打分，而不用全靠人类偏好做反馈...

AI百科 • Admin • 2026/4/9

213

可验证奖励

RLVR 是什么？为什么推理模型火了之后，它比 RLHF 更常被提起

推荐工具

提交AI工具

请确认提交信息