Retour à Informations sur l’IA
L’équipe d’ingénierie d’Anthropic interprète la revue d’AI Agents : une feuille de route de l’ensemble des tâches à la conception du correcteur

L’équipe d’ingénierie d’Anthropic interprète la revue d’AI Agents : une feuille de route de l’ensemble des tâches à la conception du correcteur

Informations sur l’IA Admin 84 vues

Anthropic a publié un article d’ingénierie le 9 janvier 2026, démontant systématiquement les principales méthodes d’évaluation des agents IA (évaluations), soulignant que les agents possèdent les caractéristiques de plusieurs tours d’interaction, appelant des outils et réécrivant l’état de l’environnement, et qu’un seul cycle d’évaluation est souvent insuffisant.

Cet article divise le scorer en trois catégories : basé sur le code, basé sur le modèle et manuel, et suggère qu’il peut être utilisé en combinaison selon les scénarios : les agents de codage peuvent être utilisés pour mesurer la correction et la qualité des processus en utilisant des contraintes de tests unitaires, d’analyse statique et de trajectoire ; Les agents de recherche doivent vérifier la qualité du soutien argumentaire, couvrir les faits et sources clés, et utiliser la revue manuelle pour calibrer la notation des modèles. L’agent informatique vérifie le statut de la page et les résultats de fond dans un environnement réel ou en bac à sable. Pour les résultats non déterministes, l’article compare pass@k et pass^k : le premier mesure le succès de plusieurs tentatives au moins une fois, et le second mesure le succès de plusieurs tentatives consécutives, ce qui se rapproche davantage de l’exigence du produit de « fiable à chaque fois ».

Sur la trajectoire d’atterrissage, Anthropic recommande de commencer par 20 à 50 cas réels de défaillance, des descriptions claires des tâches et des critères de jugement, et de préparer des solutions de référence passables pour chaque tâche. L’ensemble de questions doit couvrir les exemples à double sens de « devrait être fait/pas fait » en même temps afin d’éviter une optimisation unilatérale. L’environnement d’évaluation doit isoler chaque exécution de test afin d’éviter les défaillances gonflées ou corrélatives causées par un état partagé, un cache ou un historique. En même temps, il combine évaluation automatisée, surveillance en ligne, tests A/B et contrôles manuels réguliers pour former une ligne de défense à plusieurs niveaux.

FAQ

Q : Quel est le principal problème abordé par les évaluations d’Anthropic dans cet article ?

R : L’article se concentre sur la difficulté d’évaluer de manière stable les agents IA lors de plusieurs tours, des appels d’outils et des changements d’état, dans le but de rendre les itérations plus contrôlables et les régressions plus faciles à découvrir.

Q : Quelle est la différence entre « enregistrement de trajectoire » et « résultat final » dans l’évaluation des agents IA ?

R : Le bilan est tout le processus de conversation et de journaux d’appels d’outils, et le résultat final est l’état réel d’atterrissage dans l’environnement, comme si la base de données est réellement écrite ou si la commande est réellement générée.

Q : Pour quelles formes de produits pass@k et pass^k conviennent-elles ?

R : pass@k convient aux scénarios basés sur des outils tels que « essayez encore quelques fois et obtenez un succès », et pass^k convient au service client, aux transactions et à d’autres scénarios nécessitant un succès stable à chaque fois.

Q : Pourquoi l’ensemble de questions devrait-il couvrir en même temps les exemples à double sens des « à faire / à ne pas faire » ?

R : Les exemples bidirectionnels empêchent le modèle d’être entraîné à sur-déclencher un comportement (comme une recherche indiscriminée ou un appel indiscriminé d’un outil), ce qui entraîne des coûts plus élevés ou une expérience moins bonne.

Q : Quelle est la pratique minimale réalisable pour l’équipe afin de construire un système d’évaluation à partir de zéro ?

R : D’abord, la liste de régression manuelle et l’ordre de travail réel des défauts sont convertis en 20 à 50 tâches reproductibles, appariées avec des solutions de référence et des environnements stables, puis progressivement étendues au kit de régression et à la surveillance de la production en boucle fermée.

Le démantèlement par Anthropic de l’évaluation des agents IA ne suffit pas Anthropic vous apprend à construire un système reproductible d’évaluation d’agents IA Anthropic a nommé le problème d’évaluation des appels d’outils multi-tours de l’agent IA Anthropic a proposé un ensemble de cinq pistes de correction pour les tests de tâche L’article d’ingénierie d’Anthropic explique en détail comment les évaluations de l’agent IA Evals préviennent les retours de repli L’anthropique divise le niveleur en trois voies : code, modèle et manuel Anthropic affirme que l’évaluation de l’agent codant dépend des contraintes de test unique + trajectoire Anthropic rappelle aux agents de recherche de vérifier les faits et la qualité des sources Les discussions anthropiques sur les agents informatiques doivent vérifier l’état réel de la page Anthropic comparé pass@k et pass^k qui est le plus proche du produit et fiable Anthropic avertit que pass@k peut facilement surestimer la stabilité par procuration Anthropic pousse à chaque fois des avis de « pass^k » pour rendre les agents d’IA performants Anthropic recommande de commencer par 20 à 50 cas réels d’échec Anthropique exige que chaque question soit accompagnée d’une solution de référence, sinon l’évaluation sera déformée Anthropic insiste sur le fait que l’ensemble de questions doit contenir des exemples à double sens de ce qu’il faut faire et de ce qu’il ne faut pas faire Anthropic explique pourquoi l’enregistrement de la piste est distinct du résultat final Anthropic a dit qu’il suffit de regarder les dialogues et de ne pas regarder l’état d’atterrissage pour marcher sur la fosse Anthropic préconise l’isolement et l’anti-cache gonflés dans l’environnement de l’essai Les États anthropiques selon lesquels un État partagé cause l’échec de la pertinence Anthropic ajoute la surveillance de la ligne et la défense A/B à l’évaluation des agents IA Anthropic propose une boucle fermée d’évaluation automatisée + contrôles manuels ponctuels L’ingénierie anthropique en pratique : Kits de régression d’agents transformés avec ordres de travail Anthropic enseigne à l’équipe comment réduire le coût de la remédiation passive après la mise en service Anthropic révèle comment combiner et assortir les scoreurs des agents IA d’Évaluation Anthropic a indiqué que la notation des modèles doit être calibrée manuellement pour éviter l’autosatisfaction Anthropic recommande l’analyse statique pour mesurer la qualité du processus de l’agent codant Anthropic insiste sur le fait que le registre de trace doit être entièrement traçable Anthropic explique comment les résultats non déterministes peuvent être testés à plusieurs reprises Anthropic utilise pass^k pour répondre aux exigences de stabilité au niveau des transactions du service client Anthropic a déclaré que des descriptions de mission peu claires rendraient les évaluations inefficaces Anthropic a donné le MVP de la solution minimale viable pour l’évaluation de l’agent Anthropic rappelle qu’un seul cycle de référence est difficile à contourner la chaîne d’appel d’outils L’anthropique est l’IA L’évaluation des agents définit la séquence et la trajectoire du test Les défenseurs anthropiques utilisent les scoreurs pour restreindre les proxies et appeler les outils de manière aléatoire Anthropic met en garde contre le fait qu’une optimisation unilatérale provoquera des agents à déclencher un comportement excessif L’anthropique vous apprend à réduire les coûts et à améliorer votre expérience avec des exemples à double sens Anthropic insiste sur le fait que le résultat final doit être vérifié dans l’environnement Anthropic a déclaré que les ordres de base de données doivent être rédigés pour réussir Anthropic publie un article d’ingénierie : Comment l’évaluation des agents IA est reproductible Anthropic explique comment l’ensemble de tâches d’évaluation des agents couvre les risques clés Anthropic recommande de créer un petit ensemble de questions puis de l’étendre en un kit de régression Anthropic a souligné que l’évaluation du manque de registres de trajectoire est difficile à localiser la cause profonde de la régression Évaluation par agence de recherche en enseignement anthropique : soutien argumentatif et couverture Anthropic souligne que la qualité des sources est essentielle à la fiabilité des agents de recherche Anthropic apprend à l’opérateur informatique agent à vérifier les résultats de fond dans le bac à sable Anthropic affirme que l’isolement environnemental empêche l’évaluation historique de la contamination Anthropic utilise plusieurs couches de défense pour empêcher la qualité proxy de régresser discrètement Anthropic a proposé que l’évaluation des agents enregistre l’ensemble du processus d’appel d’outils Anthropic vous apprend à transformer des listes de régression manuelles en évaluations automatisées Anthropic résume l’évolution de l’évaluation des agents IA, passant des cas d’échec à l’itération contrôlable

Outils Recommandés

Plus