推理成本

找到 6 篇相关文章

Model Router 是什么？为什么多模型产品越来越像先路由、再回答

Model Router 可以理解成一个“先帮你判断该用哪个模型”的调度层。它不直接回答问题，而是在请求进入系统后，先根据任务类型、预算、速度要求、上下文长度、工具需求等条件，把请求分发给更合适的模型或 provider。最近这个概念越来越热，是因为多模型已经从选择题变成了运营题，很多产品根本不可能...

AI百科 • Admin • 2026/4/9

118

Reasoning Tokens 是什么？为什么它成了很多团队盯推理成本时的新指标

Reasoning Tokens 可以理解成模型在给出最终答案前，为了完成内部推理所消耗的那部分 token。它和你直接看到的输入 token、输出 token 不完全一样，因为很多推理过程并不会完整展示给用户，但它们依然占用上下文空间，也会影响延迟、费用和整体吞吐。所以最近越来越多团队开始单独盯 ...

AI百科 • Admin • 2026/4/9

122

Inference-Time Compute 是什么？为什么推理模型时代大家开始重新计算“多想一会儿”的价值

Inference-Time Compute 说的不是训练时花了多少算力，而是模型在真正回答用户问题那一刻，愿意投入多少额外计算去想、去试、去筛。这个词最近变热，是因为推理模型把一个老问题重新摆到了台面上：如果模型不是“立刻给答案”，而是允许它多算一点，结果会不会更好？答案通常是会，但账也会更复杂。...

AI百科 • Admin • 2026/4/9

Context Caching 是什么？为什么它正在成为长上下文产品的成本关键字

Context Caching 指的是把一段会被反复发送给模型的上下文先缓存起来，后续请求尽量复用，而不是每次都重新处理一遍。它最近会突然变热，原因非常现实：长上下文产品越来越多，但谁都不想重复为同一大段文档、规则或代码库反复付钱。这个概念经常被误听成“模型记住了我的全部内容”。其实不是。Cont...

AI百科 • Admin • 2026/4/9

混合专家（MoE）是什么？为什么很多热门模型参数很大、激活却没那么大

混合专家（MoE，Mixture of Experts）是一种“不是每次都让整套模型一起上”的模型架构。它最关键的特点，是把模型里的某些层拆成多个专家模块，再由一个路由器决定当前 token 该走哪些专家。这样模型总参数可以做得很大，但一次真正参与计算的参数没那么大，所以你才会看到很多热门模型写着几...

AI百科 • Admin • 2026/4/9

稀疏注意力（Sparse Attention）是什么？为什么长上下文和推理成本问题总会谈到它

稀疏注意力可以简单理解成：不是让每个 token 都去看所有 token，而是有选择地只看其中一部分。这个词会反复出现在长上下文和推理成本讨论里，是因为标准全注意力虽然强，但一旦上下文特别长，计算和显存成本就会涨得很快。为什么“全看一遍”会越来越贵在标准注意力里，文本越长，彼此之间需要计算的关系...

AI百科 • Admin • 2026/4/9

推理成本

Model Router 是什么？为什么多模型产品越来越像先路由、再回答

Reasoning Tokens 是什么？为什么它成了很多团队盯推理成本时的新指标

Inference-Time Compute 是什么？为什么推理模型时代大家开始重新计算“多想一会儿”的价值

Context Caching 是什么？为什么它正在成为长上下文产品的成本关键字

混合专家（MoE）是什么？为什么很多热门模型参数很大、激活却没那么大

稀疏注意力（Sparse Attention）是什么？为什么长上下文和推理成本问题总会谈到它

推荐工具

提交AI工具

请确认提交信息