Anthropic 发布工程方法:用 Claude 等 AI 代理参与工具设计、评测与迭代。核心抓手是 MCP 工具化、系统化评测与描述优化,让代理少走弯路、少耗 token、多做成事。
一、结论先行:好工具的五条铁律
1、选对而非做多
AI 代理不是开发者,冗余工具会分散注意力。围绕高价值工作流设计少量高质工具,如以 search 类型替代笼统的 list,直接对齐任务意图与可验证产出。
2、清晰命名与命名空间
按服务与资源前缀做 namespacing,减少工具功能重叠与误用。不同模型对前后缀命名敏感度不同,需用评测数据决定方案。
3、返回“有信号”的上下文
优先回传可驱动后续动作的关键信息与语义化标识,少给低价值字段。必要时提供详细与精简两档 response_format,兼顾可读性与串联能力。
4、为 token 效率而设计
默认启用分页、过滤与截断,并在报错信息里给出可执行改进指引,避免无效重试与上下文浪费。
5、把“工具描述”当提示工程
输入输出要无歧义,示例要贴近真实业务。小幅调整描述即可显著提升工具调用的成功率与完成度。
二、如何落地:原型→评测→共创的闭环
1、先做原型再接 MCP
用 Claude Code 起草最小可用工具与文档,封装本地 MCP 服务器或桌面扩展,在代理内闭环自测,再接入 API 做程序化实验。
2、系统化评测
用真实数据与复杂任务生成评测集,让代理跑完整的工具调用回路,并记录耗时、调用次数、token 消耗与错误类型,以准确率之外的多维指标辅助决策。
3、与代理协作优化
把评测转录与失败样例交给 Claude 分析,批量改进工具实现与说明,防止新改动破坏一致性;用留出测试集验证不过拟合。
三、工程师的操作清单
(1)设计
工具目的单一、输入命名明确、输出可验证,优先复用自然语言标识。
(2)性能
限制工具响应上限,优先多次精准检索而非一次大包。
(3)可观测
保留工具调用日志、失败原因与上下文摘要,便于回归。
(4)安全
区分只读与写入工具,标注潜在破坏性操作并设人工门禁。
常见问题解答(Q&A)
Q:如何让 AI 代理更会用我的工具
A:从工具描述入手,给出真实场景示例与参数约束;用评测数据迭代命名与输出结构,必要时提供详细和精简两档返回,兼顾可读与可串联。
Q:MCP 对企业级 Agent 有什么实际价值
A:MCP 统一了多服务器与多工具接入,便于命名空间管理与权限分级,让代理稳态调用上百个工具而不混淆。
Q:token 成本失控怎么办
A:在工具层做分页与过滤,设置响应字数上限并优化报错文案;引导代理以多次小检索替代一次大检索。
Q:如何评测工具是否真的变好
A:建立贴近业务的任务集与留出集,同时记录准确率、调用数、耗时与 token;对比改动前后在真实复杂任务上的完成度提升。