Méthodologie anthropique : Utiliser Claude pour écrire « droite » au lieu de « plusieurs » dans l’outil agent - Navigateur d'Outils IA

Anthropic publie une méthodologie d’ingénierie : concevoir, évaluer et itérer sur des outils avec des agents d’IA comme Claude. L’objectif principal est l’outillage MCP, l’évaluation systématique et l’optimisation des descriptions, afin que les agents puissent faire moins de détours, consommer moins de jetons et en faire plus.

1. Conclusion d’abord : cinq règles d’airain pour de bons outils

1. Choisissez le bon plutôt que long

Les agents d’IA ne sont pas des développeurs, et les outils redondants seront distrayants. Concevez un petit nombre d’outils de haute qualité autour de flux de travail à forte valeur ajoutée, tels que le remplacement de listes génériques par des types de recherche, afin d’aligner directement l’intention de la tâche sur les résultats vérifiables.

2. Nommage clair et espace de noms : espacement des noms

en fonction des préfixes de service et de ressource pour réduire le chevauchement et l’utilisation abusive des fonctions de l’outil. Différents modèles ont une sensibilité différente à la dénomination des préfixes et des suffixes, et les données d’évaluation doivent être utilisées pour déterminer le schéma.

3. Retourner le contexte de « signalisation »

La priorité est donnée aux informations clés et aux identifiants sémantiques qui peuvent piloter les actions ultérieures, et moins aux champs de faible valeur. Fournir des response_format détaillés et rationalisés si nécessaire, en tenant compte de la lisibilité et des capacités de concaténation.

4. Conçu pour l’efficacité des jetons

pagination, le filtrage et la troncature sont activés par défaut, et des directives d’amélioration exploitables sont données dans le message d’erreur pour éviter les nouvelles tentatives non valides et le gaspillage de contexte.

5. Utilisez la « description de l’outil » comme projet d’incitation

L’entrée et la sortie doivent être sans ambiguïté et les exemples doivent être proches de l’entreprise réelle. De petits ajustements de la description peuvent améliorer considérablement le taux de réussite et l’achèvement des appels d’outils.

2. Comment mettre en œuvre : prototype → évaluation → une boucle fermée de co-création

1. Réalisez d’abord un prototype, puis connectez-vous à MCP

Utilisez Claude Code pour rédiger les outils et documents minimums disponibles, encapsuler le serveur MCP local ou l’extension de bureau, tester l’auto-test en boucle fermée dans l’agent, puis accéder à l’API pour les expériences programmatiques.

2. Évaluation systématique

Utilisez des

données réelles et des tâches complexes pour générer des ensembles d’évaluation, laissez les agents exécuter une boucle d’appel d’outil complète, enregistrez le temps, le nombre d’appels, la consommation de jetons et les types d’erreurs, et aidez à la prise de décision avec des indicateurs multidimensionnels autres que la précision.

3. Collaborez avec les agents pour optimiser

Évaluez les transcriptions et les échantillons d’échec à Claude pour analyse, et améliorez les implémentations d’outils et les explications par lots pour éviter que de nouvelles modifications ne brisent la cohérence. Vérifiez que l’ajustement n’est pas limité à l’ensemble de l’ensemble de l’ensemble du test gauche.

3. Liste des opérations de l’ingénieur

(1) Concevez

des

outils avec un seul objectif, un nommage d’entrée clair, une sortie vérifiable et une réutilisation prioritaire de l’identification en langage naturel.

(2) Performance

Limitez la limite supérieure de la réponse de l’outil, en donnant la priorité à plusieurs extractions précises plutôt qu’à un seul gros paquet.

(3) Les

journaux d’appels de l’outil observable, les raisons d’échec et les résumés contextuels sont conservés pour faciliter la régression.

(4) Sécurité

Faites la distinction entre les outils en lecture seule et en écriture seule, marquez les opérations potentiellement destructrices et configurez le contrôle d’accès manuel.

Foire aux questions (Q&R)

Q : Comment puis-je faire en sorte que les agents d’IA utilisent davantage mes outils A

: Commencez par la description de l’outil et donnez des exemples de scénarios réels et des contraintes de paramètres ; Utilisez les données d’évaluation pour nommer et structurer la sortie de manière itérative, et fournissez des retours détaillés et concis si nécessaire, en tenant compte à la fois de la lisibilité et de la concaténation.

Q : Quelle est la valeur réelle de MCP pour les agents d’entreprise

R : MCP unifie l’accès multi-serveurs et multi-outils, facilite la gestion des espaces de noms et la hiérarchie des autorisations, et permet aux agents d’appeler des centaines d’outils de manière régulière et sans confusion.

Q : Que dois-je faire si le coût du jeton est hors de contrôle

R : Pagination et filtrage au niveau de la couche d’outils, définition de la limite supérieure du nombre de mots de réponse et optimisation de la rédaction des erreurs ; Guidez l’agent pour qu’il remplace une recherche volumineuse par plusieurs petites recherches.

Q : Comment évaluer si l’outil s’est vraiment amélioré

: Établissez un ensemble de tâches et un ensemble de paramètres proches de l’entreprise, et enregistrez la précision, le nombre d’appels, le temps consommé et les jetons. Amélioration de l’achèvement des tâches réelles et complexes avant et après le changement.

Méthodologie anthropique : Utiliser Claude pour écrire « droite » au lieu de « plusieurs » dans l’outil agent

Articles connexes

Lancement de Qwen3-Next-80B-A3B : un MoE ultra-clairsemé activé par 3B, une nouvelle référence pour le débit à contexte long

checkpoint-engine open source : « mise à jour du poids sur place » du côté de l’inférence LLM, réduisant le cycle d’entraînement-lancement RL au deuxième niveau

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés