戻るAI情報
AnthropicのエンジニアリングチームがAIエージェントレビューを解釈する:タスクセットからグレーダー設計までのロードマップ

AnthropicのエンジニアリングチームがAIエージェントレビューを解釈する:タスクセットからグレーダー設計までのロードマップ

AI情報 Admin 84 回閲覧

Anthropicは2026年1月9日にエンジニアリング記事を発表し、AIエージェントの評価(evals)の主要な手法を体系的に分解し、エージェントは複数ラウンドの相互作用、ツールの呼び出し、環境の状態の書き換えという特徴を持ち、単一の評価ラウンドでは不十分であることを強調しました。

本論文では、スコアラーをコードベース、モデルベース、手動の3つのカテゴリーに分け、シナリオに応じて組み合わせて使用できることを示唆しています。コーディングエージェントはユニットテスト、静的解析、軌道制約を用いて正確性やプロセス品質を測定できます。 リサーチエージェントは、議論の支持の質を確認し、重要な事実や情報源をカバーし、手動レビューを使ってモデルスコアリングを調整する必要があります。 コンピュータ操作エージェントは、実際の環境かサンドボックス環境かでページの状態や背景結果を確認します。 非決定性出力については、論文ではpass@kとpass^kを比較しています。前者は複数回の試みの成功を少なくとも一度測定し、後者は複数回連続した試みの成功を測定し、「毎回信頼性が高い」という積の要件により近いです。

ランディングパスでは、Anthropicは20〜50件の実際の失敗事例から始め、明確なタスクの説明と判断基準、そして各タスクに対して合格可能な参照解を準備することを推奨しています。 問題セットは「やるべきかやらないか」という双方向の例を同時に含め、一方的な最適化を避けるべきです。 評価環境は、共有状態、キャッシュ、履歴による過大な失敗や相関失敗を防ぐために、各テスト実行を隔離する必要があります。 同時に、自動評価、オンラインモニタリング、A/Bテスト、定期的な手動抜き点検を組み合わせ、多層的な防御線を形成しています。

よくある質問

Q: この記事でAnthropicの評価が議論している主な問題は何ですか?

A: この記事は、複数ラウンド、ツール呼び出し、状態変化におけるAIエージェントの安定評価の難しさに焦点を当てており、反復をより制御しやすく、回帰をより発見しやすくすることを目指しています。

Q: AIエージェント評価における「軌跡記録」と「最終結果」の違いは何ですか?

A: 実績とは会話やツールコールログの全過程であり、最終的な結果として、データベースが本当に書かれているのか、注文が本当に生成されたのかなど、環境内での実際の着陸状態がわかります。

Q: pass@kおよびpass^kに適した製品フォームは何ですか?

A: pass@kは「何度か試して1回成功する」といったツールベースのシナリオに適しており、pass^kはカスタマーサービスや取引、毎回安定した成功が必要なシナリオに適しています。

Q: なぜ問題セットで「すべきこと・してはいけないこと」の双方向の例を同時に扱うべきなのでしょうか?

A: 双方向の例は、モデルが過剰に行動をトリガーする(例えば無差別検索や無差別呼び出しツール)を防ぎ、コスト増加や体験の悪化を防ぐ。

Q: チームがゼロから評価システムを構築するための最低限の実践例は何ですか?

A: まず、手動回帰リストと実際の故障作業指示書を20〜50の再現可能なタスクに変換し、参照解や安定した環境と照合し、その後徐々に回帰キットや本番監視のクローズドループへと拡大します。

AnthropicによるAIエージェント評価の解体は十分ではありません AnthropicはAIエージェントの再現可能システムを構築する方法を教えてくれます AnthropicはAIエージェントを多ラウンドツールコール評価問題と名付けました Anthropicは、タスクテストグレーダートラックの5つのセットを提案しました Anthropicのエンジニアリング記事では、AIエージェントの評価がどのようにしてフォールバックを防ぐかを詳しく説明しています Anthropicはグレーダーをコード、モデル、手動の3つのルートに分けています Anthropicは、コーディングエージェントの評価が単一テスト+軌跡制約に依存していると述べています Anthropicは調査担当者に対し、事実の検証と情報源の質を思い出させます Anthropicの話はコンピュータ操作に関するもので、エージェントは実際のページ状態を検証しなければなりません Anthropicはpass@kとpass^kと比較し、どちらが製品により近く信頼できるかを比較しました。 Anthropicは、pass@kがプロキシの安定性を簡単に過大評価してしまう可能性があると警告しています Anthropicは毎回Pass^kレビューを推進し、AIエージェントの成功を促しています Anthropicは、まず20〜50件の実際の失敗例から始めることを推奨しています Anthropicは各問題に参照解答を添えなければ評価が歪められます Anthropicは、問題セットに何をすべきか、何をすべきでないかの双方向の例を含めるべきだと強調しています Anthropicは、トラック録音が最終結果とは別の理由を説明しています Anthropicは、セリフだけを見て着陸状態を見ないと問題を踏むと言いました Anthropicは、試験運用環境での隔離とキャッシュ防止の強化を推奨しています 人性的状態は共有状態が関連性の失敗を引き起こすと述べています AnthropicはAIエージェント評価にラインモニタリングとA/B防御を追加 Anthropicは自動評価+手動スポットチェックのクローズドループを提案しています 人類工学の実践: 作業指示付き変換エージェント回帰キット Anthropicは、稼働後の受動的修復コスト削減をチームに教えます AnthropicがAIエージェントの評価スコアラーのミックス&マッチ方法を明らかにします Anthropicは、モデルスコアリングは自己満足を避けるために手動で調整する必要があると述べています Anthropicはコーディングエージェントのプロセスの品質を測定するために静的解析を推奨しています Anthropicは、トラックログが完全に追跡可能であることを強調しています Anthropicは、非決定論的な出力を繰り返しテストする方法について語っています Anthropicは、顧客サービスの取引レベルの安定性要件にアプローチするためにpass^kを使用しています Anthropicは、任務説明が不明瞭になると評価が効果的でなくなると述べています Anthropicはエージェント評価のための最小実行可能な解決策のMVPを提供しました Anthropicは、単一の基準点がツールコールチェーンを上書きするのは難しいことを思い出させます 人為的とはAIです エージェントの評価はテストの順序と軌跡を定義します Anthropicは、スコアラーを使ってプロキシがツールをランダムに呼び出すのを抑制することを推奨しています Anthropicは、一方的な最適化がエージェントに過度な行動を引き起こすと警告しています Anthropicは、双方向の例を通じてコスト削減と体験向上を教えてくれます Anthropicは最終的な結果が環境で検証される必要があることを強調します Anthropicは、成功するためにはデータベースの注文書を書かなければならないと述べています Anthropicは工学論文を掲載しています: AIエージェント評価の再現性 Anthropicはエージェント評価タスクセットがどのように主要なリスクをカバーしているかを説明します Anthropicは、小さな質問セットを作り、それを回帰キットに拡張することを推奨しています Anthropicは、軌跡記録の欠如の評価は回帰の根本原因を特定するのが難しいと指摘しました 人類教育研究機関の評価チェック、議論、支持、カバレッジ Anthropicは、情報源の質が研究エージェントの信頼性の鍵であることを強調しています Anthropicはコンピュータオペレーターエージェントに、サンドボックス内の背景結果を検証することを教えます Anthropicは環境隔離が過去の汚染評価を妨げていると述べています Anthropicはプロキシの品質が静かに低下するのを防ぐために複数の防御層を使用しています Anthropicは、エージェント評価がツールコールの全過程を記録すべきだと提案しました Anthropicは手動の回帰リストを自動化した評価に変換する方法を教えてくれます Anthropicは、AIエージェント評価が失敗ケースから制御可能な反復へと進化してきた過程をまとめます

関連記事

情報によると、DeepSeek V4は春祭り前後にリリースされる予定であり、内部テストではより強力なプログラミング能力が示唆されています

情報によると、DeepSeek V4は春祭り前後にリリースされる予定であり、内部テストではより強力なプログラミング能力が示唆されています

複数の外国メディアは最近、中国のAI企業DeepSeekが2月中旬に新世代のフラッグシップモデルV4を発売し、プログラミング関連の機能強化に焦点を当てていると報じています。 報告書は、この問題に詳しい...

OpenAIが垂直シナリオを拡大:ChatGPTジョブはサイドバー付きの独立したエントリーとして開始可能です

OpenAIが垂直シナリオを拡大:ChatGPTジョブはサイドバー付きの独立したエントリーとして開始可能です

多くのテクノロジーメディアは、OpenAIがChatGPTの新しい「Jobs」機能(またはChatGPT Jobs)をテストしていると報じています。これはキャリア関連のAIアシスタントとして位置づけら...

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

2026年6月1日、IT HomeはGSMAが本日、2026年6月24日から25日まで上海MWCでテーマイベントとして「ヒューマノイドロボットペナルティシュートアウト」を開催することを正式に発表したと...

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

2026年6月1日時点でも、OpenAIヘルプセンターのChatGPTリリースノートは最新の更新として表示されています。5月29日のエントリーには次のように記載されています:Codexは現在、Code...

おすすめツール

もっと見る