Retour à Informations sur l’IA
Méthodologie anthropique : Utiliser Claude pour écrire « droite » au lieu de « plusieurs » dans l’outil agent

Méthodologie anthropique : Utiliser Claude pour écrire « droite » au lieu de « plusieurs » dans l’outil agent

Informations sur l’IA Admin 35 vues

Anthropic publie une méthodologie d’ingénierie : concevoir, évaluer et itérer sur des outils avec des agents d’IA comme Claude. L’objectif principal est l’outillage MCP, l’évaluation systématique et l’optimisation des descriptions, afin que les agents puissent faire moins de détours, consommer moins de jetons et en faire plus.


1. Conclusion d’abord : cinq règles d’airain pour de bons outils

1. Choisissez le bon plutôt que long

Les agents d’IA ne sont pas des développeurs, et les outils redondants seront distrayants. Concevez un petit nombre d’outils de haute qualité autour de flux de travail à forte valeur ajoutée, tels que le remplacement de listes génériques par des types de recherche, afin d’aligner directement l’intention de la tâche sur les résultats vérifiables.

2. Nommage clair et espace de noms : espacement des noms

en fonction des préfixes de service et de ressource pour réduire le chevauchement et l’utilisation abusive des fonctions de l’outil. Différents modèles ont une sensibilité différente à la dénomination des préfixes et des suffixes, et les données d’évaluation doivent être utilisées pour déterminer le schéma.

3. Retourner le contexte de « signalisation »

La priorité est donnée aux informations clés et aux identifiants sémantiques qui peuvent piloter les actions ultérieures, et moins aux champs de faible valeur. Fournir des response_format détaillés et rationalisés si nécessaire, en tenant compte de la lisibilité et des capacités de concaténation.

4. Conçu pour l’efficacité des jetons

La

pagination, le filtrage et la troncature sont activés par défaut, et des directives d’amélioration exploitables sont données dans le message d’erreur pour éviter les nouvelles tentatives non valides et le gaspillage de contexte.

5. Utilisez la « description de l’outil » comme projet d’incitation

L’entrée et la sortie doivent être sans ambiguïté et les exemples doivent être proches de l’entreprise réelle. De petits ajustements de la description peuvent améliorer considérablement le taux de réussite et l’achèvement des appels d’outils.


2. Comment mettre en œuvre : prototype → évaluation → une boucle fermée de co-création

1. Réalisez d’abord un prototype, puis connectez-vous à MCP

Utilisez Claude Code pour rédiger les outils et documents minimums disponibles, encapsuler le serveur MCP local ou l’extension de bureau, tester l’auto-test en boucle fermée dans l’agent, puis accéder à l’API pour les expériences programmatiques.

2. Évaluation systématique

Utilisez des

données réelles et des tâches complexes pour générer des ensembles d’évaluation, laissez les agents exécuter une boucle d’appel d’outil complète, enregistrez le temps, le nombre d’appels, la consommation de jetons et les types d’erreurs, et aidez à la prise de décision avec des indicateurs multidimensionnels autres que la précision.

3. Collaborez avec les agents pour optimiser

Évaluez les transcriptions et les échantillons d’échec à Claude pour analyse, et améliorez les implémentations d’outils et les explications par lots pour éviter que de nouvelles modifications ne brisent la cohérence. Vérifiez que l’ajustement n’est pas limité à l’ensemble de l’ensemble de l’ensemble du test gauche.


3. Liste des opérations de l’ingénieur

(1) Concevez

des

outils avec un seul objectif, un nommage d’entrée clair, une sortie vérifiable et une réutilisation prioritaire de l’identification en langage naturel.

(2) Performance

Limitez la limite supérieure de la réponse de l’outil, en donnant la priorité à plusieurs extractions précises plutôt qu’à un seul gros paquet.

(3) Les

journaux d’appels de l’outil observable, les raisons d’échec et les résumés contextuels sont conservés pour faciliter la régression.

(4) Sécurité

Faites la distinction entre les outils en lecture seule et en écriture seule, marquez les opérations potentiellement destructrices et configurez le contrôle d’accès manuel.


Foire aux questions (Q&R)

Q : Comment puis-je faire en sorte que les agents d’IA utilisent davantage mes outils A

: Commencez par la description de l’outil et donnez des exemples de scénarios réels et des contraintes de paramètres ; Utilisez les données d’évaluation pour nommer et structurer la sortie de manière itérative, et fournissez des retours détaillés et concis si nécessaire, en tenant compte à la fois de la lisibilité et de la concaténation.

Q : Quelle est la valeur réelle de MCP pour les agents d’entreprise

R : MCP unifie l’accès multi-serveurs et multi-outils, facilite la gestion des espaces de noms et la hiérarchie des autorisations, et permet aux agents d’appeler des centaines d’outils de manière régulière et sans confusion.

Q : Que dois-je faire si le coût du jeton est hors de contrôle

?

R : Pagination et filtrage au niveau de la couche d’outils, définition de la limite supérieure du nombre de mots de réponse et optimisation de la rédaction des erreurs ; Guidez l’agent pour qu’il remplace une recherche volumineuse par plusieurs petites recherches.

Q : Comment évaluer si l’outil s’est vraiment amélioré

R

: Établissez un ensemble de tâches et un ensemble de paramètres proches de l’entreprise, et enregistrez la précision, le nombre d’appels, le temps consommé et les jetons. Amélioration de l’achèvement des tâches réelles et complexes avant et après le changement.

Méthodologie de l’ingénierie anthropique Claude agit en tant qu’agent Cadre d’instrumentalisation du CPM Conception d’outils d’agent IA Optimisation de la description de l’outil Méthode d’évaluation systématique Évaluation de l’agent en boucle fermée Contrôle des coûts des tokens Stratégies de filtrage de pagination Conventions de nommage des espaces de noms Sélection d’outils de haute qualité Renvoie un contexte signalé Retour à double vitesse détaillé et simplifié Guide de construction de l’ensemble d’évaluation Évaluation réelle des tâches Métriques du nombre d’appels et du temps passé Suivi de la consommation de tokens Analyse du type d’erreur Échec de la lecture de l’échantillon Collaboration et co-création entre organismes Prototype ClaudeCode Serveur MCP local Accès aux extensions de bureau Expériences programmatiques d’API Les entrées et sorties des outils sont sans ambiguïté Journaux d’observabilité Audit des appels d’outils Autorisations en lecture seule et en écriture seule Stratégie de contrôle d’accès manuel Conception d’outils basés sur la recherche De la liste à l’optimisation de la recherche Exemple de contraintes de paramètres Tests de sensibilité des noms Gestion multi-serveurs et multi-outils Pratique de la hiérarchie des autorisations Évitement des conflits d’espace de noms Plusieurs stratégies de recherche à petite échelle Alternatives de récupération de grande taille Augmentation de l’achèvement des tâches L’ensemble est laissé pour vérifier qu’il n’est pas adapté Les agents évitent les détours Moins de jetons sont utilisés pour accomplir plus de choses Ingénierie de l’outillage L’évaluation stimule l’itération L’entreprise est proche de l’ensemble des tâches Standardisation des structures de production Réponse\_format conception Valeur de l’agent d’entreprise MCP Routage et sélection de l’outil Les flux de travail à forte valeur ajoutée sont prioritaires

Outils Recommandés

Plus