Prompt Caching 是什么?为什么长提示和多轮 Agent 都在想办法吃到缓存
Prompt Caching 指的是把模型请求里那段反复出现的提示前缀缓存下来,后续再遇到同样或高度一致的前缀时,尽量直接复用处理结果,而不是每次都从头算一遍。它这两年之所以越来越热,不是因为名字高级,而是因为越来越多产品终于意识到:固定 system prompt、工具定义、长规则、长文档背景,才...
找到 17 篇相关文章 - 第2页
Prompt Caching 指的是把模型请求里那段反复出现的提示前缀缓存下来,后续再遇到同样或高度一致的前缀时,尽量直接复用处理结果,而不是每次都从头算一遍。它这两年之所以越来越热,不是因为名字高级,而是因为越来越多产品终于意识到:固定 system prompt、工具定义、长规则、长文档背景,才...
Voice Agent 可以理解成“以语音为主入口的 Agent”。它不只是把你的话转成文字,再把模型回复念出来,而是把实时听、理解、打断、追问、调用工具、执行任务这些能力放进同一个交互闭环里。所以最近大家讨论 Voice Agent,重点已经不再是语音像不像人,而是它能不能真的替你把事办完。 以前...
模型上下文协议(MCP,Model Context Protocol)可以理解成 AI 应用和外部工具之间的一种通用接线规范。它的目标不是替代 API,而是让模型、客户端和工具服务之间少做一层层定制对接。所以 2026 年它会突然变成热词,不是因为概念新,而是因为 Agent 产品开始大规模需要“稳...
多模态代理指的不是只能处理文字的 Agent,而是能同时接收和利用图像、语音、界面状态、文档甚至视频等多种输入,再结合工具调用和任务规划去执行动作。它最近越来越受关注,是因为很多真实任务根本不只发生在文本里,Agent 要真能干活,就得先“看得见、听得懂、再动得了”。 它为什么比普通聊天代理更难 -...
提示词注入(Prompt Injection)指的是:攻击者把一段会影响模型行为的指令,偷偷塞进模型可能读取的内容里,让模型偏离原本该遵守的任务或规则。它不一定长得像“恶意代码”,很多时候只是混进网页正文、PDF 文档、知识库内容、表格备注,甚至一段看似普通的话。 为什么它不是传统意义上的漏洞 传统...
如果你只是想做一个轻量的本地知识库聊天工具,RAGFlow 不一定是最省事的选择;但如果你的重点是 复杂文档解析、企业级知识库、可扩展的 RAG 工作流 ,那它确实是现在很值得认真看的开源项目之一。RAGFlow 官方在 README 里把自己定位成开源 RAG 引擎,不只是做检索增强,还把 Age...