Model Router 是什么?为什么多模型产品越来越像先路由、再回答
Model Router 可以理解成一个“先帮你判断该用哪个模型”的调度层。它不直接回答问题,而是在请求进入系统后,先根据任务类型、预算、速度要求、上下文长度、工具需求等条件,把请求分发给更合适的模型或 provider。最近这个概念越来越热,是因为多模型已经从选择题变成了运营题,很多产品根本不可能...
AI百科 • Admin •
92
找到 3 篇相关文章
Model Router 可以理解成一个“先帮你判断该用哪个模型”的调度层。它不直接回答问题,而是在请求进入系统后,先根据任务类型、预算、速度要求、上下文长度、工具需求等条件,把请求分发给更合适的模型或 provider。最近这个概念越来越热,是因为多模型已经从选择题变成了运营题,很多产品根本不可能...
Prompt Caching 指的是把模型请求里那段反复出现的提示前缀缓存下来,后续再遇到同样或高度一致的前缀时,尽量直接复用处理结果,而不是每次都从头算一遍。它这两年之所以越来越热,不是因为名字高级,而是因为越来越多产品终于意识到:固定 system prompt、工具定义、长规则、长文档背景,才...
Context Caching 指的是把一段会被反复发送给模型的上下文先缓存起来,后续请求尽量复用,而不是每次都重新处理一遍。它最近会突然变热,原因非常现实:长上下文产品越来越多,但谁都不想重复为同一大段文档、规则或代码库反复付钱。 这个概念经常被误听成“模型记住了我的全部内容”。其实不是。Cont...