RLVR 是什么?为什么推理模型火了之后,它比 RLHF 更常被提起
RLVR 通常指 Reinforcement Learning with Verifiable Rewards,也就是“带可验证奖励的强化学习”。它最近会比 RLHF 更常被提起,核心原因不是 RLHF 失效了,而是推理模型兴起后,很多任务开始可以用“答案对不对”来直接打分,而不用全靠人类偏好做反馈...
找到 14 篇相关文章 - 第2页
RLVR 通常指 Reinforcement Learning with Verifiable Rewards,也就是“带可验证奖励的强化学习”。它最近会比 RLHF 更常被提起,核心原因不是 RLHF 失效了,而是推理模型兴起后,很多任务开始可以用“答案对不对”来直接打分,而不用全靠人类偏好做反馈...
AI 浏览器正在成为 2025-2026 年一个非常有流量潜力的新概念。它不再只是传统意义上的网页容器,而是开始把搜索、总结、对话、跨页面理解和多步任务执行整合进浏览器本身。也正因为这种变化,浏览器不再只是“看网页的工具”,而越来越像一个能帮你完成任务的代理入口。 这个方向之所以被反复讨论,是因为浏...
模型蒸馏是近两年被频繁提到的一个关键词,尤其是在“小模型为什么越来越强”这个问题上,它几乎总会出现。简单说,蒸馏的思路就是让较小的学生模型去学习较大的教师模型,把后者的一部分能力、行为方式和输出规律迁移过来,从而在更低成本下拿到更接近的效果。 这件事之所以重要,是因为很多团队并不需要一个最顶级、最昂...
计算机使用代理,也常被叫做 Computer-Using Agent,是最近智能体能力升级里非常受关注的一类形态。它和普通聊天机器人最大的区别,不是回答得更聪明,而是它开始能直接看屏幕、识别界面元素,并通过点击、输入、滚动等方式操作电脑或网页。简单说,它不只是告诉你“该怎么做”,而是开始真的替你去做...
氛围编程是 2025 年以来迅速出圈的 AI 热词之一。它说的不是某种新的编程语言,而是一种新的开发方式:人用自然语言描述目标、功能和体验,AI 负责生成代码、改界面、补逻辑,再在多轮对话里不断迭代。也正因为这个思路足够直观,氛围编程才会让很多原本不会写代码的人也开始尝试做产品、搭网站、生成小工具。...
小语言模型,也就是 SLM,正在成为端侧 AI 和本地 AI 场景里的高频概念。过去大家更关注“大模型有多强”,但随着手机、PC、车载系统和边缘设备开始真正落地 AI,行业发现不是所有任务都需要超大参数模型。很多时候,速度、成本、隐私和本地可运行性,比参数规模更重要,这也是小语言模型越来越受重视的原...