AnthropicのエンジニアリングチームがAIエージェントレビューを解釈する:タスクセットからグレーダー設計までのロードマップ
Anthropicは2026年1月9日にエンジニアリング記事を発表し、AIエージェントの評価(evals)の主要な手法を体系的に分解し、エージェントは複数ラウンドの相互作用、ツールの呼び出し、環境の状態の書き換えという特徴を持ち、単一の評価ラウンドでは不十分であることを強調しました。 本論文では、ス...
AI情報 • Admin •
84
Found 1 related articles