Diffusion LLM 是什么?为什么它总被拿来挑战 Transformer 的自回归路线
Diffusion LLM 可以理解成把“扩散模型”的一些核心思路搬到语言模型里,用逐步去噪、逐步修正的方式生成文本,而不是像传统自回归模型那样一个 token 一个 token 往后写。它最近常被提起,不是因为已经全面取代 Transformer 路线,而是因为行业一直在找别的文本生成范式,看看能...
Diffusion LLM 可以理解成把“扩散模型”的一些核心思路搬到语言模型里,用逐步去噪、逐步修正的方式生成文本,而不是像传统自回归模型那样一个 token 一个 token 往后写。它最近常被提起,不是因为已经全面取代 Transformer 路线,而是因为行业一直在找别的文本生成范式,看看能...
Physical AI 通常指让 AI 不只理解文字、图片和语音,还能进入物理世界去感知、预测、规划和执行动作。它会成为 2026 年机器人圈的高频热词,是因为大家开始更明确地把“会和真实环境互动的 AI”单独拎出来,而不再把它简单算作普通大模型的延伸。 它和一般意义上的生成式 AI 有什么不同 生...
稀疏注意力可以简单理解成:不是让每个 token 都去看所有 token,而是有选择地只看其中一部分。这个词会反复出现在长上下文和推理成本讨论里,是因为标准全注意力虽然强,但一旦上下文特别长,计算和显存成本就会涨得很快。 为什么“全看一遍”会越来越贵 在标准注意力里,文本越长,彼此之间需要计算的关系...
合成数据指的不是“随便编一批假数据”,而是用仿真、生成模型、规则引擎或程序化方式制造出来的训练数据。它最近越来越热,根本原因是很多真实世界数据太贵、太少、太难标,或者涉及隐私与安全边界,结果大家开始认真把“造数据”本身当成能力建设。 为什么它会在 2025-2026 这么常见 - 机器人、自动驾驶、...
Test-Time Scaling 可以理解成:在模型真正回答问题时,给它更多推理预算、更多尝试次数或更长的思考空间,从而换取更好的结果。它之所以火,是因为很多人发现,模型能力不只取决于训练时多大,还取决于“回答当下愿不愿意多算一会儿”。 它到底在扩什么 - 可能是更长的推理步骤,让模型别太快下结论...
RLVR 通常指 Reinforcement Learning with Verifiable Rewards,也就是“带可验证奖励的强化学习”。它最近会比 RLHF 更常被提起,核心原因不是 RLHF 失效了,而是推理模型兴起后,很多任务开始可以用“答案对不对”来直接打分,而不用全靠人类偏好做反馈...