Post-Training 是什么?为什么很多模型真正拉开差距的是后训练
Post-Training 指的是模型在完成大规模预训练之后,继续通过额外训练步骤把它变得更有用、更稳定、更符合目标任务的过程。很多人一提模型强不强,第一反应还是盯预训练数据量和参数规模,但现在业内越来越清楚地看到,真正把“会背知识”变成“能干好活”的,往往就是后训练。 预训练更像打地基,让模型学会...
AI百科 • Admin •
31
找到 2 篇相关文章
Post-Training 指的是模型在完成大规模预训练之后,继续通过额外训练步骤把它变得更有用、更稳定、更符合目标任务的过程。很多人一提模型强不强,第一反应还是盯预训练数据量和参数规模,但现在业内越来越清楚地看到,真正把“会背知识”变成“能干好活”的,往往就是后训练。 预训练更像打地基,让模型学会...
RLVR 通常指 Reinforcement Learning with Verifiable Rewards,也就是“带可验证奖励的强化学习”。它最近会比 RLHF 更常被提起,核心原因不是 RLHF 失效了,而是推理模型兴起后,很多任务开始可以用“答案对不对”来直接打分,而不用全靠人类偏好做反馈...