返回AI资讯
Anthropic 方法论:用 Claude 把 Agent 工具写“对”而非写“多”

Anthropic 方法论:用 Claude 把 Agent 工具写“对”而非写“多”

AI资讯 Admin 35 次浏览

Anthropic 发布工程方法:用 Claude 等 AI 代理参与工具设计、评测与迭代。核心抓手是 MCP 工具化、系统化评测与描述优化,让代理少走弯路、少耗 token、多做成事。


一、结论先行:好工具的五条铁律

1、选对而非做多

AI 代理不是开发者,冗余工具会分散注意力。围绕高价值工作流设计少量高质工具,如以 search 类型替代笼统的 list,直接对齐任务意图与可验证产出。

2、清晰命名与命名空间

按服务与资源前缀做 namespacing,减少工具功能重叠与误用。不同模型对前后缀命名敏感度不同,需用评测数据决定方案。

3、返回“有信号”的上下文

优先回传可驱动后续动作的关键信息与语义化标识,少给低价值字段。必要时提供详细与精简两档 response_format,兼顾可读性与串联能力。

4、为 token 效率而设计

默认启用分页、过滤与截断,并在报错信息里给出可执行改进指引,避免无效重试与上下文浪费。

5、把“工具描述”当提示工程

输入输出要无歧义,示例要贴近真实业务。小幅调整描述即可显著提升工具调用的成功率与完成度。


二、如何落地:原型→评测→共创的闭环

1、先做原型再接 MCP

用 Claude Code 起草最小可用工具与文档,封装本地 MCP 服务器或桌面扩展,在代理内闭环自测,再接入 API 做程序化实验。

2、系统化评测

用真实数据与复杂任务生成评测集,让代理跑完整的工具调用回路,并记录耗时、调用次数、token 消耗与错误类型,以准确率之外的多维指标辅助决策。

3、与代理协作优化

把评测转录与失败样例交给 Claude 分析,批量改进工具实现与说明,防止新改动破坏一致性;用留出测试集验证不过拟合。


三、工程师的操作清单

(1)设计

工具目的单一、输入命名明确、输出可验证,优先复用自然语言标识。

(2)性能

限制工具响应上限,优先多次精准检索而非一次大包。

(3)可观测

保留工具调用日志、失败原因与上下文摘要,便于回归。

(4)安全

区分只读与写入工具,标注潜在破坏性操作并设人工门禁。


常见问题解答(Q&A)

Q:如何让 AI 代理更会用我的工具

A:从工具描述入手,给出真实场景示例与参数约束;用评测数据迭代命名与输出结构,必要时提供详细和精简两档返回,兼顾可读与可串联。

Q:MCP 对企业级 Agent 有什么实际价值

A:MCP 统一了多服务器与多工具接入,便于命名空间管理与权限分级,让代理稳态调用上百个工具而不混淆。

Q:token 成本失控怎么办

A:在工具层做分页与过滤,设置响应字数上限并优化报错文案;引导代理以多次小检索替代一次大检索。

Q:如何评测工具是否真的变好

A:建立贴近业务的任务集与留出集,同时记录准确率、调用数、耗时与 token;对比改动前后在真实复杂任务上的完成度提升。

推荐工具

更多