RLVR

Post-Training 是什么？为什么很多模型真正拉开差距的是后训练

Post-Training 指的是模型在完成大规模预训练之后，继续通过额外训练步骤把它变得更有用、更稳定、更符合目标任务的过程。很多人一提模型强不强，第一反应还是盯预训练数据量和参数规模，但现在业内越来越清楚地看到，真正把“会背知识”变成“能干好活”的，往往就是后训练。预训练更像打地基，让模型学会...

AI百科 • Admin • 2026/4/9

RLVR 是什么？为什么推理模型火了之后，它比 RLHF 更常被提起

RLVR 通常指 Reinforcement Learning with Verifiable Rewards，也就是“带可验证奖励的强化学习”。它最近会比 RLHF 更常被提起，核心原因不是 RLHF 失效了，而是推理模型兴起后，很多任务开始可以用“答案对不对”来直接打分，而不用全靠人类偏好做反馈...

AI百科 • Admin • 2026/4/9

213

Post-Training 是什么？为什么很多模型真正拉开差距的是后训练

RLVR 是什么？为什么推理模型火了之后，它比 RLHF 更常被提起

推荐工具

提交AI工具

请确认提交信息