Anthropic工程团队解读AI Agents评测:从任务集到Grader设计的路线图 Anthropic于2026年1月9日发布工程文章,系统拆解AI代理(AI agents)评测(evals)的关键方法,强调代理具备多轮交互、调用工具与改写环境状态等特性,单轮评测往往不足,需围绕“任务、试次、评分器、轨迹记录与最终结果”建立可复现的自动化评测体系,以减少上线后被动修复与质量回退。 ... AI资讯 • Admin • 2026/1/10 86