돌아가기 AI는 오픈 소스입니다.
AMO-벤치 발표: IMO 수준 수학 대회용 대형 모델 추론 벤치마크

AMO-벤치 발표: IMO 수준 수학 대회용 대형 모델 추론 벤치마크

AI는 오픈 소스입니다. Admin 105 회 조회

1. Abstract

AMO-Bench는 메이투안의 LongCat 팀이 시작한 고급 수학적 추론 벤치마크로, 국제 수학 올림피아드(IMO) 수준과 더 높은 난이도 대회 문제에 중점을 둡니다. 벤치마크는 50개의 새로운 인간 전문가 설계 문제로 구성되어 있으며, 시스템은 자동 점수 산정과 인공 연쇄사고(CoT) 주석을 통해 어려운 수학적 추론에서 대형 모델의 진정한 상한을 평가합니다. 현재 공개된 결과에 따르면 Kimi-k2-Thinking은 약 56%의 점수를 받았고, 그 다음으로 GPT-5-thinking(높음)과 Qwen3-235B-Thinking이 뒤를 잇지만, 대부분의 모델은 여전히 40% 미만입니다.

2. 핵심 특징

1. 원본 IMO 수준 문제 세트: 모든 50문제 모두 인간 전문가에 의해 설계 및 교차 검증되었으며, 최소 IMO 난이도로 명확히 표시되어 있어 코퍼스 기억 훈련으로 인한 '브러시링 리스트'를 피할 수 있습니다.

2. 고정밀 자동 채점: 규칙 + 모델을 혼합한 채점 알고리즘을 사용하여 수치 답변, 표현식 등을 강력히 비교하며, 공식 평가에 따르면 전체 채점 정확도는 99.2%에 달할 수 있습니다.

3. 인간 주석 CoT: 각 질문에는 인간 연쇄 추론 과정이 탑재되어 있어 모델 오류 패턴 분석에 편리하며, 이후 감독 및 미세 조정 또는 강화 학습의 참조 신호로도 활용할 수 있습니다.

4. 형식보다는 추론에 집중: 이 문제는 완전한 증명 없이 최종 답변만 요구하여 수동 채점 비용을 크게 줄이고 대규모 재현 가능한 평가를 지원합니다.

3. 설치

1. Hugging Face 데이터셋 페이지에서 AMO-Bench를 다운로드하거나(datasets 및 기타 도구를 사용해 추출) 로컬 디렉터리로 추출하세요.

  1. GitHub 저장소를 복제하고 README에 따라 Python 의존성 및 평가 스크립트를 설치합니다.
  2. 구성 파일에서 모델 호출 메서드(로컬 추론 또는 클라우드 API)를 지정하고, 출력 및 로그 경로를 설정하세요.
  3. 공식 샘플 스크립트를 실행하고, 소수의 샘플에 대해 평가 및 자동 채점 과정을 먼저 검증한 후 전체 평가를 실시합니다.

4. 일반적인 사용 사례

1. 대형 모델의 벤치마크 평가: AMO-Bench는 GSM8K, MATH, AIME 및 기타 데이터셋과 결합되어 "극한 문제"에서 고급 모델 간 차이를 구분합니다.

2. 추론 전략 비교: 직접적인 답변, 단계적 사고(CoT), 같은 질문에 대한 반성과 재시도 등 다양한 추론 방식의 성능을 비교합니다.

3. 훈련 및 미세 조정: 질문과 인간 CoT를 고품질 감독 데이터로 활용하여 모델의 수학적 추론 체인을 강화합니다.

4. 토큰 오버헤드 및 계산 스케일링 연구: 고정된 문제 집합에서 다양한 모델과 문제 해결 전략의 출력 길이와 연산 에너지 소비를 분석합니다.

5. 생태학 및 경쟁 제품

1. 생태학: 이 프로젝트는 기존 대형 모델 평가 파이프라인과 LongCat 생태계에 쉽게 접근할 수 있는 데이터셋, 자동 점수 산정 코드, 샘플 스크립트 및 공개 결과를 제공합니다.

2. 전통 벤치마크와의 비교: GSM8K, MATH, AIME24/25 등 이미 '포화'된 다른 벤치마크들과 비교할 때, AMO-Bench는 난이도를 IMO 범위로 높입니다; IMO-ProofBench 같은 벤치마크가 증명 품질을 강조하는 것과 달리, 이 벤치마크는 "하드 추론 + 자동 평가"의 조합에 더 중점을 둡니다.

6. 제한 및 주의사항

  1. 문제 수가 50문항에 불과하며, 전체 통계적 신뢰도가 제한적이어서 포괄적인 능력을 포괄하는 일반적인 벤치마크보다는 어려운 스트레스 테스트 및 순위 매기기에 더 적합합니다.
  2. 문제는 고등학교 수학 올림피아드 스타일에 초점을 맞추며, 개방형 추론과 학제간 종합 능력에 대한 범위가 제한적입니다.
  3. 자동 점수 산출은 신중하게 설계되었지만, 극단적이거나 비전통적인 출력 형식은 여전히 오판될 수 있으므로 주요 모델의 평가 결과는 수동으로 샘플링하고 검토하는 것이 권장됩니다.
  4. 연구나 제품에 사용하기 전에 저장소와 데이터셋의 라이선스 조건을 확인하여 상업적 사용 및 재배포가 허용되는지 확인하세요.

7. 프로젝트 주소

https://github.com/meituan-longcat/AMO-Bench 8. 자주 묻는

질문: AMO-Bench 데이터셋을 어떻게 얻고 불러오나요?

A: Hugging Face 데이터셋 페이지나 공식 프로젝트 페이지에서 제공하는 링크에서 직접 다운로드하면, 로컬 추출 후 파이썬(datasets, 커스텀 스크립트 등)으로 질문과 답변 필드별로 불러올 수 있습니다.

Q: AMO-Bench가 평가에 더 적합한 대형 모델 유형은 무엇인가요?

A: 주로 강력한 수학적·기호적 추론 능력을 가진 일반 대형 모델을 대상으로 하며, 특히 "사고/추론/CoT" 모드를 제공하는 버전이 그렇습니다; 이 벤치마크는 중소형 모델에게는 너무 어렵고, 점수가 매우 낮을 수 있습니다.

Q: 제 실험을 어떻게 재현하거나 제 모델을 현지에서 연결할 수 있나요?

A: GitHub 저장소의 지침을 따라 의존성을 설치하고, 모델 추론 인터페이스(예: 로컬 추론 서비스나 클라우드 API)를 설정한 후, 공식 평가 스크립트를 호출해 답변 파일을 생성하고 자동으로 점수를 매깁니다.

Q: AMO-Bench가 훈련 세트로 직접 사용하기에 적합한가요?

A: 연구 시나리오에서 미세 조정이나 강화 학습에 사용할 수 있지만, 문제 수가 제한적이므로 검증 집합이나 테스트 세트로 유지하고, 이 벤치마크를 과적합하지 않도록 더 큰 수학 말뭉치에서만 훈련시키는 것이 권장됩니다.

AMO-Bench 고급 수학적 추론 벤치마크 소개 AMO-Bench IMO 수학 올림피아드 퍼즐 모음집 AMO-Bench를 사용하여 대형 모델 추론의 상한을 평가합니다 AMO-벤치가 Kimik2Thinking 퍼포먼스 점수를 부여했습니다 AMO-Bench에서 GPT5 사고 점수 비교 AMO-벤치Qwen3235B 싱킹 순위 AMO-벤치 원래 난이도 문제 특징 AMO-Bench를 사용해 데이터셋 스와이핑을 피하는 방법 AMO-Bench 고정밀 자동 점수 매기기 AMO-Bench 점수의 정확도는 99.2 해상도에 도달했습니다 AMO-벤치 인간 체인 CoT 라벨링 값 AMO-Bench는 모델 오류 모드 방법을 분석하는 데 사용되었습니다 AMO-벤치는 최종 답변 설계만 요구합니다 어려운 스트레스 테스트의 벤치마크로 AMO-Bench를 사용하세요 AMO-Bench는 GSM8KMATHAIME와 대조적으로 사용됩니다 AMO-Bench와 IMOProofBench의 차이점 분석 AMO-Bench는 어려운 추론과 자동 평가에 더 많은 관심을 기울입니다 AMO-Bench는 다양한 추론 전략의 효과를 연구하는 데 사용되었습니다 AMO-벤치 쌍 직접 답변 대 CoT 실험 AMO-Bench는 여러 차례의 추론 평가를 재고하고 재시도하는 것을 지원합니다 AMO-Bench 문제는 대형 범용 모델에 더 적합합니다 소형 및 중형 모델은 AMO-Bench에서 낮은 점수를 받았습니다 AMO-Bench 데이터셋 HuggingFace 획득 방법 AMO-BenchGitHub 리뷰 코드 설치 튜토리얼 AMO-Bench를 이용해 자신의 모델을 로컬에서 연결하는 방법 AMO-Bench 자동 점수 스크립트 사용 지침 AMO-Bench는 토큰 오버헤드와 컴퓨팅 파워 스케일링을 연구하는 데 사용되었습니다 AMO-Bench는 리더보드 및 스트레스 테스트에 적합합니다 AMO-벤치는 50문항만 있고, 통계도 제한적입니다 AMO-벤치 문제는 고등학교 수학 올림피아드 스타일에 더 초점을 맞추고 있습니다 AMO-Bench는 개방 추론에 대한 보장이 충분하지 않다는 점을 상기시켜 줍니다 AMO-벤치는 극단적인 출력에서 점수를 잘못 판단할 수 있습니다 AMO-Bench를 사용하기 전에 라이선스 조건을 반드시 확인해야 합니다 AMO-Bench는 수학적으로 미세 조정된 고품질 신호로 사용할 수 있습니다 또한 AMO-Bench를 테스트 세트로 유지하는 것이 권장됩니다 AMO-Bench는 LongCat 생태계 평가 프로세스와 결합되어 있습니다 AMO-Bench 공개 결과 순위 해석 기존 평가 파이프라인에 AMO-Bench를 추가하는 방법 AMO-Bench는 사고 모델 모델의 장점을 중심으로 설계되었습니다 AMO-Bench는 기호적 추론 능력에 대한 요구가 매우 높습니다 AMO-Bench는 값과 표현식 간의 견고한 비교를 지원합니다 AMO-벤치 인간 CoT는 미세 조정을 감독하는 데 사용할 수 있습니다 AMO-Bench는 복잡한 추론 오류 유형을 연구하는 데 도움을 줍니다 AMO-Bench는 최첨단 대형 모델 극한 도전에 적합합니다 AMO-Bench가 수학 연구 커뮤니티에서 가질 잠재적 가치 AMO-Bench는 대회 수준의 추론 표준을 제공합니다 AMO-Bench 질문 세트 설치 및 구성 FAQ 기업 내에서 AMO-Bench를 활용한 모델 타당성을 평가하세요 AMO-Bench는 논문 평가의 벤치마크 중 하나로 적합합니다 AMO-벤치 향후 확장 문제 양과 난이도 전망 AMO-Bench 링크와 공식 프로젝트 주소 설명

추천 도구

더보기