延迟优化

找到 3 篇相关文章

Model Router 是什么？为什么多模型产品越来越像先路由、再回答

Model Router 可以理解成一个“先帮你判断该用哪个模型”的调度层。它不直接回答问题，而是在请求进入系统后，先根据任务类型、预算、速度要求、上下文长度、工具需求等条件，把请求分发给更合适的模型或 provider。最近这个概念越来越热，是因为多模型已经从选择题变成了运营题，很多产品根本不可能...

AI百科 • Admin • 2026/4/9

118

Prompt Caching 是什么？为什么长提示和多轮 Agent 都在想办法吃到缓存

Prompt Caching 指的是把模型请求里那段反复出现的提示前缀缓存下来，后续再遇到同样或高度一致的前缀时，尽量直接复用处理结果，而不是每次都从头算一遍。它这两年之所以越来越热，不是因为名字高级，而是因为越来越多产品终于意识到：固定 system prompt、工具定义、长规则、长文档背景，才...

AI百科 • Admin • 2026/4/9

Context Caching 是什么？为什么它正在成为长上下文产品的成本关键字

Context Caching 指的是把一段会被反复发送给模型的上下文先缓存起来，后续请求尽量复用，而不是每次都重新处理一遍。它最近会突然变热，原因非常现实：长上下文产品越来越多，但谁都不想重复为同一大段文档、规则或代码库反复付钱。这个概念经常被误听成“模型记住了我的全部内容”。其实不是。Cont...

AI百科 • Admin • 2026/4/9

延迟优化

Model Router 是什么？为什么多模型产品越来越像先路由、再回答

Prompt Caching 是什么？为什么长提示和多轮 Agent 都在想办法吃到缓存

Context Caching 是什么？为什么它正在成为长上下文产品的成本关键字

推荐工具

提交AI工具

请确认提交信息