Model Router 是什么?为什么多模型产品越来越像先路由、再回答
Model Router 可以理解成一个“先帮你判断该用哪个模型”的调度层。它不直接回答问题,而是在请求进入系统后,先根据任务类型、预算、速度要求、上下文长度、工具需求等条件,把请求分发给更合适的模型或 provider。最近这个概念越来越热,是因为多模型已经从选择题变成了运营题,很多产品根本不可能...
找到 6 篇相关文章
Model Router 可以理解成一个“先帮你判断该用哪个模型”的调度层。它不直接回答问题,而是在请求进入系统后,先根据任务类型、预算、速度要求、上下文长度、工具需求等条件,把请求分发给更合适的模型或 provider。最近这个概念越来越热,是因为多模型已经从选择题变成了运营题,很多产品根本不可能...
Reasoning Tokens 可以理解成模型在给出最终答案前,为了完成内部推理所消耗的那部分 token。它和你直接看到的输入 token、输出 token 不完全一样,因为很多推理过程并不会完整展示给用户,但它们依然占用上下文空间,也会影响延迟、费用和整体吞吐。所以最近越来越多团队开始单独盯 ...
Inference-Time Compute 说的不是训练时花了多少算力,而是模型在真正回答用户问题那一刻,愿意投入多少额外计算去想、去试、去筛。这个词最近变热,是因为推理模型把一个老问题重新摆到了台面上:如果模型不是“立刻给答案”,而是允许它多算一点,结果会不会更好?答案通常是会,但账也会更复杂。...
Context Caching 指的是把一段会被反复发送给模型的上下文先缓存起来,后续请求尽量复用,而不是每次都重新处理一遍。它最近会突然变热,原因非常现实:长上下文产品越来越多,但谁都不想重复为同一大段文档、规则或代码库反复付钱。 这个概念经常被误听成“模型记住了我的全部内容”。其实不是。Cont...
混合专家(MoE,Mixture of Experts)是一种“不是每次都让整套模型一起上”的模型架构。它最关键的特点,是把模型里的某些层拆成多个专家模块,再由一个路由器决定当前 token 该走哪些专家。这样模型总参数可以做得很大,但一次真正参与计算的参数没那么大,所以你才会看到很多热门模型写着几...
稀疏注意力可以简单理解成:不是让每个 token 都去看所有 token,而是有选择地只看其中一部分。这个词会反复出现在长上下文和推理成本讨论里,是因为标准全注意力虽然强,但一旦上下文特别长,计算和显存成本就会涨得很快。 为什么“全看一遍”会越来越贵 在标准注意力里,文本越长,彼此之间需要计算的关系...