Anthropic 方法论：用 Claude 把 Agent 工具写“对”而非写“多”

Anthropic 发布工程方法：用 Claude 等 AI 代理参与工具设计、评测与迭代。核心抓手是 MCP 工具化、系统化评测与描述优化，让代理少走弯路、少耗 token、多做成事。

一、结论先行：好工具的五条铁律

1、选对而非做多

AI 代理不是开发者，冗余工具会分散注意力。围绕高价值工作流设计少量高质工具，如以 search 类型替代笼统的 list，直接对齐任务意图与可验证产出。

2、清晰命名与命名空间

按服务与资源前缀做 namespacing，减少工具功能重叠与误用。不同模型对前后缀命名敏感度不同，需用评测数据决定方案。

3、返回“有信号”的上下文

优先回传可驱动后续动作的关键信息与语义化标识，少给低价值字段。必要时提供详细与精简两档 response_format，兼顾可读性与串联能力。

4、为 token 效率而设计

默认启用分页、过滤与截断，并在报错信息里给出可执行改进指引，避免无效重试与上下文浪费。

5、把“工具描述”当提示工程

输入输出要无歧义，示例要贴近真实业务。小幅调整描述即可显著提升工具调用的成功率与完成度。

二、如何落地：原型→评测→共创的闭环

1、先做原型再接 MCP

用 Claude Code 起草最小可用工具与文档，封装本地 MCP 服务器或桌面扩展，在代理内闭环自测，再接入 API 做程序化实验。

2、系统化评测

用真实数据与复杂任务生成评测集，让代理跑完整的工具调用回路，并记录耗时、调用次数、token 消耗与错误类型，以准确率之外的多维指标辅助决策。

3、与代理协作优化

把评测转录与失败样例交给 Claude 分析，批量改进工具实现与说明，防止新改动破坏一致性；用留出测试集验证不过拟合。

三、工程师的操作清单

（1）设计

工具目的单一、输入命名明确、输出可验证，优先复用自然语言标识。

（2）性能

限制工具响应上限，优先多次精准检索而非一次大包。

（3）可观测

保留工具调用日志、失败原因与上下文摘要，便于回归。

（4）安全

区分只读与写入工具，标注潜在破坏性操作并设人工门禁。

常见问题解答（Q&A）

Q：如何让 AI 代理更会用我的工具

A：从工具描述入手，给出真实场景示例与参数约束；用评测数据迭代命名与输出结构，必要时提供详细和精简两档返回，兼顾可读与可串联。

Q：MCP 对企业级 Agent 有什么实际价值

A：MCP 统一了多服务器与多工具接入，便于命名空间管理与权限分级，让代理稳态调用上百个工具而不混淆。

Q：token 成本失控怎么办

A：在工具层做分页与过滤，设置响应字数上限并优化报错文案；引导代理以多次小检索替代一次大检索。

Q：如何评测工具是否真的变好

A：建立贴近业务的任务集与留出集，同时记录准确率、调用数、耗时与 token；对比改动前后在真实复杂任务上的完成度提升。

Anthropic 方法论：用 Claude 把 Agent 工具写“对”而非写“多”

相关文章

Qwen3-Next-80B-A3B 上线：3B 激活的超稀疏 MoE，长上下文吞吐新标杆

checkpoint-engine 开源：LLM 推理端“就地权重更新”，把 RL 训练-上线周期压到秒级

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

Anthropic 方法论：用 Claude 把 Agent 工具写“对”而非写“多”

相关文章

Qwen3-Next-80B-A3B 上线：3B 激活的超稀疏 MoE，长上下文吞吐新标杆

checkpoint-engine 开源：LLM 推理端“就地权重更新”，把 RL 训练-上线周期压到秒级

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

提交AI工具

请确认提交信息