1. Abstract
AMO-Bench는 메이투안의 LongCat 팀이 시작한 고급 수학적 추론 벤치마크로, 국제 수학 올림피아드(IMO) 수준과 더 높은 난이도 대회 문제에 중점을 둡니다. 벤치마크는 50개의 새로운 인간 전문가 설계 문제로 구성되어 있으며, 시스템은 자동 점수 산정과 인공 연쇄사고(CoT) 주석을 통해 어려운 수학적 추론에서 대형 모델의 진정한 상한을 평가합니다. 현재 공개된 결과에 따르면 Kimi-k2-Thinking은 약 56%의 점수를 받았고, 그 다음으로 GPT-5-thinking(높음)과 Qwen3-235B-Thinking이 뒤를 잇지만, 대부분의 모델은 여전히 40% 미만입니다.
2. 핵심 특징
1. 원본 IMO 수준 문제 세트: 모든 50문제 모두 인간 전문가에 의해 설계 및 교차 검증되었으며, 최소 IMO 난이도로 명확히 표시되어 있어 코퍼스 기억 훈련으로 인한 '브러시링 리스트'를 피할 수 있습니다.
2. 고정밀 자동 채점: 규칙 + 모델을 혼합한 채점 알고리즘을 사용하여 수치 답변, 표현식 등을 강력히 비교하며, 공식 평가에 따르면 전체 채점 정확도는 99.2%에 달할 수 있습니다.
3. 인간 주석 CoT: 각 질문에는 인간 연쇄 추론 과정이 탑재되어 있어 모델 오류 패턴 분석에 편리하며, 이후 감독 및 미세 조정 또는 강화 학습의 참조 신호로도 활용할 수 있습니다.
4. 형식보다는 추론에 집중: 이 문제는 완전한 증명 없이 최종 답변만 요구하여 수동 채점 비용을 크게 줄이고 대규모 재현 가능한 평가를 지원합니다.
3. 설치
1. Hugging Face 데이터셋 페이지에서 AMO-Bench를 다운로드하거나(datasets 및 기타 도구를 사용해 추출) 로컬 디렉터리로 추출하세요.
- GitHub 저장소를 복제하고 README에 따라 Python 의존성 및 평가 스크립트를 설치합니다.
- 구성 파일에서 모델 호출 메서드(로컬 추론 또는 클라우드 API)를 지정하고, 출력 및 로그 경로를 설정하세요.
- 공식 샘플 스크립트를 실행하고, 소수의 샘플에 대해 평가 및 자동 채점 과정을 먼저 검증한 후 전체 평가를 실시합니다.
4. 일반적인 사용 사례
1. 대형 모델의 벤치마크 평가: AMO-Bench는 GSM8K, MATH, AIME 및 기타 데이터셋과 결합되어 "극한 문제"에서 고급 모델 간 차이를 구분합니다.
2. 추론 전략 비교: 직접적인 답변, 단계적 사고(CoT), 같은 질문에 대한 반성과 재시도 등 다양한 추론 방식의 성능을 비교합니다.
3. 훈련 및 미세 조정: 질문과 인간 CoT를 고품질 감독 데이터로 활용하여 모델의 수학적 추론 체인을 강화합니다.
4. 토큰 오버헤드 및 계산 스케일링 연구: 고정된 문제 집합에서 다양한 모델과 문제 해결 전략의 출력 길이와 연산 에너지 소비를 분석합니다.
5. 생태학 및 경쟁 제품
1. 생태학: 이 프로젝트는 기존 대형 모델 평가 파이프라인과 LongCat 생태계에 쉽게 접근할 수 있는 데이터셋, 자동 점수 산정 코드, 샘플 스크립트 및 공개 결과를 제공합니다.
2. 전통 벤치마크와의 비교: GSM8K, MATH, AIME24/25 등 이미 '포화'된 다른 벤치마크들과 비교할 때, AMO-Bench는 난이도를 IMO 범위로 높입니다; IMO-ProofBench 같은 벤치마크가 증명 품질을 강조하는 것과 달리, 이 벤치마크는 "하드 추론 + 자동 평가"의 조합에 더 중점을 둡니다.
6. 제한 및 주의사항
- 문제 수가 50문항에 불과하며, 전체 통계적 신뢰도가 제한적이어서 포괄적인 능력을 포괄하는 일반적인 벤치마크보다는 어려운 스트레스 테스트 및 순위 매기기에 더 적합합니다.
- 문제는 고등학교 수학 올림피아드 스타일에 초점을 맞추며, 개방형 추론과 학제간 종합 능력에 대한 범위가 제한적입니다.
- 자동 점수 산출은 신중하게 설계되었지만, 극단적이거나 비전통적인 출력 형식은 여전히 오판될 수 있으므로 주요 모델의 평가 결과는 수동으로 샘플링하고 검토하는 것이 권장됩니다.
- 연구나 제품에 사용하기 전에 저장소와 데이터셋의 라이선스 조건을 확인하여 상업적 사용 및 재배포가 허용되는지 확인하세요.
7. 프로젝트 주소
https://github.com/meituan-longcat/AMO-Bench 8. 자주 묻는
질문: AMO-Bench 데이터셋을 어떻게 얻고 불러오나요?
A: Hugging Face 데이터셋 페이지나 공식 프로젝트 페이지에서 제공하는 링크에서 직접 다운로드하면, 로컬 추출 후 파이썬(datasets, 커스텀 스크립트 등)으로 질문과 답변 필드별로 불러올 수 있습니다.
Q: AMO-Bench가 평가에 더 적합한 대형 모델 유형은 무엇인가요?
A: 주로 강력한 수학적·기호적 추론 능력을 가진 일반 대형 모델을 대상으로 하며, 특히 "사고/추론/CoT" 모드를 제공하는 버전이 그렇습니다; 이 벤치마크는 중소형 모델에게는 너무 어렵고, 점수가 매우 낮을 수 있습니다.
Q: 제 실험을 어떻게 재현하거나 제 모델을 현지에서 연결할 수 있나요?
A: GitHub 저장소의 지침을 따라 의존성을 설치하고, 모델 추론 인터페이스(예: 로컬 추론 서비스나 클라우드 API)를 설정한 후, 공식 평가 스크립트를 호출해 답변 파일을 생성하고 자동으로 점수를 매깁니다.
Q: AMO-Bench가 훈련 세트로 직접 사용하기에 적합한가요?
A: 연구 시나리오에서 미세 조정이나 강화 학습에 사용할 수 있지만, 문제 수가 제한적이므로 검증 집합이나 테스트 세트로 유지하고, 이 벤치마크를 과적합하지 않도록 더 큰 수학 말뭉치에서만 훈련시키는 것이 권장됩니다.