Zurück zu KI-Informationen
Das Ingenieurteam von Anthropic interpretiert die KI-Agenten-Rezension: eine Roadmap vom Aufgabensatz bis zum Bewertungsdesign

Das Ingenieurteam von Anthropic interpretiert die KI-Agenten-Rezension: eine Roadmap vom Aufgabensatz bis zum Bewertungsdesign

KI-Informationen Admin 84 Aufrufe

Anthropic veröffentlichte am 9. Januar 2026 einen Ingenieurartikel, der systematisch die wichtigsten Methoden der Bewertung von KI-Agenten (Evals) analysiert und betont, dass Agenten die Eigenschaften mehrerer Interaktionsrunden, das Aufrufen von Werkzeugen und das Umschreiben des Umweltzustands aufweisen und eine einzelne Bewertungsrunde oft unzureichend ist.

Dieses Papier teilt den Scorer in drei Kategorien ein: codebasiert, modellbasiert und manuell, und schlägt vor, dass er je nach Szenario in Kombination verwendet werden kann: Codieragenten können verwendet werden, um Korrektheit und Prozessqualität mittels Unit-Testing, statischer Analyse und Trajektorienbedingungen zu messen; Forschungsagenten müssen die Qualität der Argumentation überprüfen, wichtige Fakten und Quellen abdecken und manuelle Überprüfung nutzen, um die Modellbewertung zu kalibrieren. Der Computeroperator prüft den Seitenstatus und die Hintergrundergebnisse in einer realen oder Sandbox-Umgebung. Für nichtdeterministische Ergebnisse vergleicht das Papier pass@k und Pass^k: Ersteres misst den Erfolg mehrerer Versuche mindestens einmal, letzteres den Erfolg mehrerer aufeinanderfolgender Versuche, was näher an der Produktanforderung "zuverlässig jedes Mal" liegt.

Auf dem Landepfad empfiehlt Anthropic, mit 20–50 echten Fehlfällen, klaren Aufgabenbeschreibungen und Bewertungskriterien zu beginnen und für jede Aufgabe akzeptable Referenzlösungen vorzubereiten. Der Fragesatz sollte gleichzeitig die zweiseitigen Beispiele "sollte erledigt werden/nicht getan werden" behandeln, um eine einseitige Optimierung zu vermeiden. Die Evaluierungsumgebung sollte jeden Testlauf isolieren, um aufgeblähte oder Korrelationsfehler durch gemeinsamen Zustand, Cache oder Historie zu vermeiden. Gleichzeitig kombiniert es automatisierte Bewertung, Online-Überwachung, A/B-Tests und regelmäßige manuelle Stichprobenkontrollen zu einer mehrschichtigen Verteidigungslinie.

FAQs

F: Was ist das Hauptproblem, das Anthropics Bewertungen in diesem Artikel behandeln?

A: Der Artikel konzentriert sich auf die Schwierigkeit einer stabilen Bewertung von KI-Agenten unter mehreren Runden, Toolaufrufen und Zustandsänderungen, mit dem Ziel, Iterationen kontrollierbarer und Regressionen besser auffindbar zu machen.

F: Was ist der Unterschied zwischen "Trajectory Record" und "Endergebnis" bei der Bewertung von KI-Agenten?

A: Der Track Record ist der gesamte Prozess der Gesprächs- und Tool-Call-Logs, und das Endergebnis ist der tatsächliche Landezustand in der Umgebung, zum Beispiel ob die Datenbank wirklich geschrieben ist oder ob die Bestellung wirklich generiert ist.

F: Für welche Produktformen sind pass@k und pass^k geeignet?

A: pass@k eignet sich für toolbasierte Szenarien wie "Versuche es noch ein paar Mal und erreiche einen Erfolg", und pass^k eignet sich für Kundenservice, Transaktionen und andere Szenarien, die jedes Mal stabilen Erfolg erfordern.

F: Warum sollte der Fragesatz gleichzeitig die Zwei-Wege-Beispiele von "Do's/Don'ts" behandeln?

A: Bidirektionale Beispiele verhindern, dass das Modell darauf trainiert wird, ein Verhalten (wie z. B. wahllose Suche oder wahlloses Aufrufen eines Tools) zu übertriggern, was zu höheren Kosten oder einer schlechteren Erfahrung führt.

F: Was ist die minimal machbare Praxis, damit das Team ein Bewertungssystem von Grund auf aufbauen kann?

A: Zunächst werden die manuelle Regressionsliste und der tatsächliche Fehler-Arbeitsauftrag in 20–50 reproduzierbare Aufgaben umgewandelt, mit Referenzlösungen und stabilen Umgebungen kombiniert und dann schrittweise auf das Regressionskit und die Produktionsüberwachung im geschlossenen Kreislauf erweitert.

Anthropics Demontage der KI-Agentenbewertung reicht nicht aus Anthropic bringt dir bei, wie man ein KI-Agenten-Eval-System baut, das reproduzierbar ist Anthropic bezeichnete das KI-Agenten-Multi-Round-Tool-Call-Bewertungsproblem Anthropic schlug eine fünfteilige Reihe von Aufgabentest-Gradier-Spuren vor Anthropics Engineering-Artikel erklärt ausführlich, wie KI-Agent Evals Rückgriffe verhindert Anthropic unterteilt den Grader in drei Routen: Code, Modell und Manual Anthropic besagt, dass die Bewertung des Codierungsmittels von den einzelnen Testbedingungen + Trajektorienbedingungen abhängt Anthropic erinnert Forscher daran, Fakten und Quellenqualität zu überprüfen Anthropische Berichte darüber, dass Computerbetriebsagenten den Real-Page-Status überprüfen müssen Anthropic verglichen pass@k und pass^k, wer näher am Produkt ist und zuverlässig ist Anthropic warnt, dass pass@k die Stabilität von Proxys leicht überschätzen kann Anthropic pusht Pass^k Reviews, um KI-Agenten jedes Mal erfolgreich zu machen Anthropic empfiehlt, mit 20 bis 50 echten Ausfallfällen zu beginnen. Anthropic verlangt, dass jede Frage von einer Referenzlösung begleitet wird, andernfalls wird die Bewertung verzerrt Anthropic betont, dass der Fragesatz zweiseitige Beispiele enthalten sollte, was zu tun ist und was nicht zu tun ist Anthropic erklärt, warum die Trackaufnahme vom Endergebnis getrennt ist. Anthropic sagte, dass nur der Blick auf den Dialog und nicht auf den Landungszustand die Grube betreten würde Anthropo befürwortet Isolation und Anti-Cache, die im Testlauf-Umfeld aufgebläht werden Anthropische Zustände, dass der geteilte Zustand Relevanzfehler verursacht Anthropic fügt der KI-Agentenbewertung Linienüberwachung und A/B-Verteidigung hinzu Anthropic schlägt einen geschlossenen Kreislauf aus automatisierter Bewertung + manuellen Stichprobenkontrollen vor Anthropographisches Ingenieurwesen in der Praxis: Transformagent-Regressionskits mit Arbeitsaufträgen Anthropic lehrt das Team, die Kosten für passive Sanierung nach dem Go-Live zu senken Anthropic enthüllt, wie man die AI-Agenten Evals-Scorer mischen und kombinieren kann Anthropic erklärte, dass die Modellbewertung manuell kalibriert werden muss, um Selbstzufriedenheit zu vermeiden Anthropic empfiehlt eine statische Analyse zur Messung der Qualität des Codiermittelprozesses Anthropic betont, dass das Streckenlog vollständig nachverfolgbar sein muss Anthropic spricht darüber, wie nichtdeterministische Ausgaben wiederholt getestet werden können Anthropic verwendet pass^k, um die Stabilitätsanforderungen des Kundenservices auf Transaktionsebene zu erreichen. Anthropic erklärte, dass unklare Missionsbeschreibungen Evals wirkungslos machen würden Anthropic gab den MVP der minimal viable Lösung für die Agentenbewertung Anthropic erinnert daran, dass es schwierig ist, eine einzelne Datumsrunde zu übersteuern, um die Werkzeuganrufkette zu übersteuern Anthropisch ist KI Die Bewertung der Agenten definiert die Testsequenz und Trajektorie Anthropische Befürworter nutzen Scorer, um Proxys dazu zu bringen, Werkzeuge zufällig anzurufen Anthropic warnt, dass einseitige Optimierung dazu führen wird, dass Agenten übermäßiges Verhalten auslösen Anthropic lehrt Sie, Kosten zu senken und Ihr Erlebnis mit Zwei-Wege-Beispielen zu verbessern Anthropic betont, dass das Endergebnis in der Umwelt überprüft werden muss Anthropic sagte, dass Datenbankaufträge geschrieben werden müssen, um erfolgreich zu sein Anthropic veröffentlicht Ingenieurartikel: Wie die Bewertung von KI-Agenten reproduzierbar ist Anthropic erklärt, wie der Aufgabensatz zur Agentenbewertung zentrale Risiken abdeckt Anthropic empfiehlt, eine kleine Menge Fragen zu erstellen und diese dann zu einem Regressions-Kit auszubauen Anthropic wies darauf hin, dass es schwierig ist, die Ursache der Regression bei der Bewertung des Mangels an Trajektoriendaten zu bestimmen. Anthropische Lehre, Forschungsagentur, Bewertungsprüfungen, Argument, Unterstützung und Berichterstattung Anthropic betont, dass die Qualität der Quellen entscheidend für die Zuverlässigkeit von Forschungsagenten ist Anthropic bringt dem Computerbediener-Agenten bei, die Hintergrundergebnisse in der Sandbox zu überprüfen Anthropic erklärt, dass Umweltisolation die Bewertung der historischen Kontamination verhindert Anthropic verwendet mehrere Verteidigungsschichten, um zu verhindern, dass die Proxy-Qualität leise zurückgeht Anthropic schlug vor, dass die Agentenbewertung den gesamten Prozess der Werkzeugaufrufe aufzeichnen sollte Anthropic bringt dir bei, wie du manuelle Regressionslisten in automatisierte Bewertungen verwandeln kannst Anthropic fasst die Entwicklung der Bewertung von KI-Agenten von Fehlerfällen hin zu kontrollierbaren Iterationen zusammen.

Empfohlene Tools

Mehr