돌아가기 AI 정보
Anthropic의 엔지니어링 팀이 AI 에이전트 리뷰를 해석합니다: 작업 세트에서 그레이더 설계까지의 로드맵

Anthropic의 엔지니어링 팀이 AI 에이전트 리뷰를 해석합니다: 작업 세트에서 그레이더 설계까지의 로드맵

AI 정보 Admin 84 회 조회

Anthropic은 2026년 1월 9일 AI 에이전트 평가(eval)의 핵심 방법을 체계적으로 해체하는 엔지니어링 기사를 발표했으며, 에이전트는 여러 차례의 상호작용, 도구를 호출하고 환경 상태를 재작성하는 특성을 가지고 있으며, 단일 평가 라운드로는 종종 충분하지 않다고 강조했습니다.

본 논문은 점수 측정기를 코드 기반, 모델 기반, 수동 세 가지 범주로 나누며, 시나리오에 따라 조합하여 사용할 수 있음을 제안합니다: 코딩 에이전트는 단위 테스트, 정적 분석, 궤적 제약 조건을 통해 정확성과 프로세스 품질을 측정할 수 있고; 연구 에이전트는 논증 지원의 질을 점검하고, 핵심 사실과 출처를 다루며, 수동 검토를 통해 모델 점수를 보정해야 합니다. 컴퓨터 운영 에이전트는 실제 또는 샌드박스 환경에서 페이지 상태와 배경 결과를 확인합니다. 비결정적 출력의 경우, 논문은 pass@k와 pass^k를 비교합니다: 전자는 최소 한 번은 다중 시도의 성공을 측정하고, 후자는 여러 번 연속된 시도의 성공률을 측정하는데, 이는 '매번 신뢰할 수 있다'는 곱 요구사항에 더 가깝습니다.

착륙 경로에서 Anthropic은 20에서 50건의 실제 실패 사례부터 시작하고, 명확한 작업 설명과 판단 기준을 작성하며, 각 작업에 대해 합리적인 참조 해법을 준비할 것을 권장합니다. 문제 세트는 '해야 할 것/하지 말아야 한다'는 양방향 예시를 동시에 포함해야 일방적 최적화를 피해야 합니다. 평가 환경은 공유 상태, 캐시 또는 기록으로 인한 과장되거나 상관관계 실패를 방지하기 위해 각 테스트 실행을 격리해야 합니다. 동시에 자동 평가, 온라인 모니터링, A/B 테스트, 정기적인 수동 현장 점검을 결합하여 다층적인 방어선을 형성합니다.

자주 묻는 질문

Q: 이 글에서 Anthropic의 평가가 논의하는 주요 문제는 무엇인가요?

답변: 이 글은 다중 라운드, 툴 호출, 상태 변화 하에서 AI 에이전트를 안정적으로 평가하는 어려움에 초점을 맞추고 있으며, 반복을 더 제어하고 회귀분석을 더 쉽게 발견할 수 있도록 하는 것을 목표로 합니다.

Q: AI 에이전트 평가에서 '궤적 기록'과 '최종 결과'의 차이는 무엇인가요?

A: 실적은 대화와 도구 호출 기록 전체 과정이며, 최종 결과는 데이터베이스가 실제로 작성되었는지, 명령이 실제로 생성되었는지 같은 실제 환경에서의 착지 상태입니다.

Q: 어떤 제품 형태가 pass@k and pass^k에 적합한가요?

A: pass@k는 "몇 번 더 시도해 성공한다"와 같은 도구 기반 시나리오에 적합하며, pass^k는 고객 서비스, 거래 및 매번 안정적인 성공이 필요한 기타 시나리오에 적합합니다.

Q: 왜 문제 세트가 양방향 '해야 할 일/하지 말아야 할 것' 예시를 동시에 다뤄야 하나요?

A: 양방향 예제는 모델이 무차별 탐색이나 도구 호출 같은 행동을 과도하게 유발하도록 학습되어 비용이 증가하거나 경험이 나빠지는 것을 방지합니다.

Q: 팀이 처음부터 평가 시스템을 구축할 수 있는 최소한의 실천 방법은 무엇인가요?

A: 먼저 수동 회귀 목록과 실제 결함 작업 지시서를 20-50개의 재현 가능한 작업으로 변환하고, 참조 솔루션과 안정적인 환경과 매칭한 후, 점차 회귀 키트와 생산 모니터링 폐쇄 루프로 확장합니다.

Anthropic의 AI 에이전트 평가 해체만으로는 충분하지 않습니다 Anthropic은 AI 에이전트 구축법을 가르쳐 줍니다. Evals 재현 가능한 시스템 Anthropic은 AI 에이전트를 다라운드 툴 호출 평가 문제로 명명했습니다 Anthropic은 5개로 구성된 과제 시험 채점 트랙 세트를 제안했습니다 Anthropic의 엔지니어링 기사에서는 AI 에이전트 Evals가 어떻게 후퇴를 방지하는지 자세히 설명합니다 Anthropic은 그레이더를 코드, 모델, 수동 세 가지 경로로 나눕니다 Anthropic은 코딩 에이전트의 평가가 단일 테스트 + 궤적 제약에 의존한다고 말합니다 Anthropic은 연구 담당자들에게 사실 확인과 출처 품질을 상기시킵니다 컴퓨터 조작에 관한 인류적 논의는 에이전트가 실제 페이지 상태를 확인해야 합니다 Anthropic은 pass@k와 pass^k를 비교해 누가 제품에 더 가깝고 신뢰할 수 있는지 Anthropic은 pass@k가 프록시 안정성을 쉽게 과대평가할 수 있다고 경고합니다 Anthropic은 AI 에이전트가 성공할 수 있도록 pass^k 리뷰를 계속 밀어붙입니다 Anthropic은 20에서 50건의 실제 실패 사례부터 시작할 것을 권장합니다 Anthropic은 각 질문마다 참고 해답이 함께 있어야 하며, 그렇지 않으면 평가가 왜곡됩니다 Anthropic은 문제 세트에 무엇을 해야 하고 무엇을 하지 말아야 하는지에 대한 양방향 예시를 포함해야 한다고 강조합니다 Anthropic은 트랙 녹음이 최종 결과와 분리된 이유를 설명합니다 Anthropic은 대사만 보고 착륙 상태는 않으면 구덩이를 밟는다고 말했습니다 Anthropic은 시험 운영 환경에서 격리와 캐시 방지를 부풀려야 한다고 주장합니다 인류주의는 공유 상태가 관련성 실패를 초래한다고 주장합니다 Anthropic은 AI 에이전트 평가에 라인 모니터링과 A/B 방어 기능을 추가합니다 Anthropic은 자동 평가 + 수동 현장 점검의 폐쇄 루프를 제안합니다 인류공학의 실천: 작업 지시서가 포함된 변환 에이전트 회귀 키트 Anthropic은 가동 후 수동 복원 비용을 줄이도록 팀에 가르칩니다 Anthropic이 AI 에이전트 평가 점수를 조합하는 방법을 공개합니다 Anthropic은 모델 점수 매기는 자기 만족을 피하기 위해 수동으로 조정되어야 한다고 말했습니다 Anthropic은 코딩 에이전트 프로세스의 품질을 측정하기 위해 정적 분석을 권장합니다 Anthropic은 트랙 로그가 완전히 추적 가능해야 한다고 강조합니다 Anthropic은 비결정적 출력이 반복적으로 테스트될 수 있다는 점에 대해 이야기합니다 Anthropic은 고객 서비스의 거래 수준 안정성 요구사항에 접근하기 위해 pass^k를 사용합니다 Anthropic은 임무 설명이 불분명하면 평가가 무력화될 것이라고 밝혔습니다 Anthropic은 에이전트 평가를 위한 최소 실행 가능한 해법의 MVP를 제공했습니다 Anthropic은 단일 기준 측정이 도구 호출 체인을 덮어쓰기 어렵다는 점을 상기시킵니다 인류는 AI입니다 에이전트 평가는 테스트 순서와 궤적을 정의합니다 인류는 대리인이 무작위로 도구를 호출하지 못하도록 스코어러를 사용하는 것을 옹호합니다 Anthropic은 일방적 최적화가 에이전트가 과도하게 행동을 유발할 수 있다고 경고합니다 인류적 예시는 비용을 줄이고 경험을 향상시키는 방법을 가르쳐 줍니다 Anthropic은 최종 결과가 환경에서 검증되어야 함을 강조합니다 Anthropic은 데이터베이스 주문이 성공하려면 작성되어야 한다고 밝혔습니다 Anthropic은 공학 논문을 발행합니다: AI 에이전트 평가가 재현 가능한 방법 Anthropic은 에이전트 평가 작업 세트가 주요 위험을 어떻게 다루는지 설명합니다 Anthropic은 작은 질문 세트를 만들어 회귀 키트로 확장하는 것을 권장합니다 Anthropic은 궤적 기록 부족 평가가 퇴행의 근본 원인을 찾기 어렵다고 지적했습니다 인류학 교육 연구 기관 평가는 주장, 지원 및 보장을 점검합니다. Anthropic은 연구 에이전트의 신뢰성에 있어 출처의 질이 핵심임을 강조합니다 Anthropic은 컴퓨터 운영자 에이전트에게 샌드박스 내 배경 결과를 검증하는 법을 가르칩니다 Anthropic은 환경 격리가 과거 오염 평가를 방해한다고 말합니다 Anthropic은 프록시 품질이 조용히 퇴보하는 것을 막기 위해 여러 방어 체계를 사용합니다 Anthropic은 에이전트 평가가 도구 호출 전체 과정을 기록해야 한다고 제안했습니다 Anthropic은 수동 회귀 목록을 자동화된 평가로 바꾸는 방법을 가르쳐줍니다 Anthropic은 실패 사례에서 제어 가능한 반복으로 AI 에이전트 평가가 진화한 과정을 요약합니다

추천 도구

더보기