1. Abstract
AMO-Bench ist ein fortgeschrittener Benchmark für mathematisches Denken, der vom LongCat-Team von Meituan gestartet wurde und sich auf Fragen auf Niveau der International Mathematical Olympiad (IMO) und noch schwierigeren Wettbewerbsfragen konzentriert. Der Benchmark besteht aus 50 neuen, von Menschen von Experten entworfenen Fragen, und das System bewertet die wahre obere Grenze des großen Modells im schwierigen mathematischen Schließen mittels automatischer Bewertung und künstlicher Kettendenkannotation (CoT). Die aktuellen öffentlichen Ergebnisse zeigen, dass Kimi-k2-Thinking etwa 56 % erreicht, gefolgt von GPT-5-Thinking (hoch) und Qwen3-235B-Thinking, und die meisten Modelle liegen immer noch unter 40 %.
2. Kernmerkmale
1. Ursprünglicher IMO-Level-Problemsatz: Alle 50 Fragen werden von menschlichen Experten entworfen und verifiziert und sind eindeutig als mindestens IMO-Schwierigkeit markiert, was hilft, die durch das Training des Korpusgedächtnisses verursachte "Brushing-List" zu vermeiden.
2. Hochpräzise automatische Bewertung: Mit einem Bewertungsalgorithmus, der Regeln + Modelle kombiniert, wird ein robuster Vergleich von numerischen Antworten, Ausdrücken usw. durchgeführt, und der offizielle Richter behauptet, dass die Gesamtgenauigkeit der Bewertung 99,2 % erreichen kann.
3. Menschliche Annotation CoT: Jede Frage ist mit einem menschlichen Ketten-Schlussfolgerungsprozess ausgestattet, der für die Analyse von Fehlermustern im Modell praktisch ist und auch als Referenzsignal für anschließende Supervision sowie Feinabstimmung oder Reinforcement Learning dienen kann.
4. Fokus auf das Schließen statt auf das Format: Die Frage erfordert lediglich die endgültige Antwort, ohne vollständigen Beweis, was die Kosten für manuelles Bewerten erheblich senkt und eine groß angelegte reproduzierbare Bewertung unterstützt.
3. Installation
1. Laden Sie AMO-Bench von der Hugging Face-Datensatzseite herunter (oder verwenden Sie datasets und andere Werkzeuge, um es abzurufen) und entpacken Sie es in das lokale Verzeichnis.
- Klonen Sie das GitHub-Repository und installieren Sie das Python-Abhängigkeits- und Evaluierungsskript gemäß dem README.
- Spezifizieren Sie die Modellaufrufmethode (lokale Inferenz oder Cloud-API) in der Konfigurationsdatei und legen Sie die Ausgabe- und Logpfade fest.
- Führe das offizielle Musterskript aus, verifiziere zunächst die Bewertung und den automatischen Bewertungsprozess bei einer kleinen Anzahl von Proben und führe dann eine vollständige Bewertung durch.
4. Typische Anwendungsfälle
1. Benchmark-Bewertung großer Modelle: AMO-Bench wird mit GSM8K, MATH, AIME und anderen Datensätzen kombiniert, um die Unterschiede zwischen High-End-Modellen bei "extremen Problemen" zu unterscheiden.
2. Vergleich von Denkstrategien: Vergleiche die Leistung verschiedener Denkweisen wie direkte Antworten, Schritt-für-Schritt-Denken (CoT) sowie Reflexion und Wiederholung derselben Fragestellung.
3. Trainings- und Feinabstimmungssignale: Verwenden Sie Fragen und menschliches CoT als hochwertige, überwachte Daten, um die mathematische Denkkette des Modells zu stärken.
4. Untersuchen Sie den Token-Overhead und berechnen Sie die Skalierung: Analysieren Sie die Ausgabelänge und den Stromverbrauch verschiedener Modelle und Problemlösungsstrategien auf einem festen Problemsatz.
5. Ökologie und konkurrierende Produkte
1. Ökologie: Das Projekt stellt Datensätze, automatischen Scoring-Code, Beispielskripte und öffentliche Ergebnisse bereit, die leicht auf die bestehende große Modellbewertungspipeline und das LongCat-Ökosystem zugreifen können.
2. Vergleich mit traditionellen Benchmarks: Im Vergleich zu GSM8K, MATH, AIME24/25 und anderen bereits "gesättigten" Benchmarks erhöht AMO-Bench die Schwierigkeit auf den IMO-Bereich; Im Gegensatz zu Benchmarks wie IMO-ProofBench, die die Beweisqualität betonen, konzentriert sich es stärker auf eine Kombination aus "hartem Schließen + automatisierter Bewertung".
6. Einschränkungen und Vorsichtsmaßnahmen
- Die Anzahl der Fragen beträgt nur 50, und die allgemeine statistische Sicherheit ist begrenzt, was eher als schwieriger Stresstest und Ranking geeignet ist als allgemeiner Maßstab für umfassende Fähigkeiten.
- Die Fragen konzentrieren sich auf den Mathematical Olympiad-Stil der High School, und die Abdeckung von offenem Denken und interdisziplinärer Gesamtkompetenz ist begrenzt.
- Obwohl die automatische Bewertung sorgfältig gestaltet ist, können extreme oder unkonventionelle Ausgabeformate dennoch falsch eingeschätzt werden, und die Bewertungsergebnisse der Schlüsselmodelle sollten manuell geprüft und überprüft werden.
- Bevor Sie es in Forschung oder Produkten verwenden, prüfen Sie die Lizenzbedingungen des Repositoriums und des Datensatzes, um zu bestätigen, ob kommerzielle Nutzung und Weiterverbreitung erlaubt sind.
7. Projektadresse
https://github.com/meituan-longcat/AMO-Bench 8. FAQs
F: Wie erhält und lädt man den AMO-Bench-Datensatz?
A: Sie können es direkt über den Link auf der Hugging Face-Datensatzseite oder der offiziellen Projektseite herunterladen und es nach der lokalen Extraktion per Frage- und Antwortfeld über Python (wie datasets, benutzerdefinierte Skripte) laden.
F: Welche Arten großer Modelle eignet sich für AMO-Bench eher zur Bewertung?
A: Es richtet sich hauptsächlich an allgemeine große Modelle mit starken mathematischen und symbolischen Denkfähigkeiten, insbesondere an die Version, die den "Thinking/Reasoning/CoT"-Modus bietet; Dieser Benchmark ist für kleine und mittelgroße Modelle oft zu schwierig, und die Punktzahl kann extrem niedrig sein.
F: Wie kann ich mein Experiment reproduzieren oder mein eigenes Modell lokal verbinden?
A: Befolgen Sie die Anweisungen des GitHub-Repositoris, um Abhängigkeiten zu installieren, konfigurieren Sie die Modellinferenzschnittstelle (wie lokalen Inferenzdienst oder Cloud-API) und rufen Sie dann das offizielle Evaluationsskript auf, um eine Antwortdatei zu generieren und diese automatisch zu bewerten.
F: Ist AMO-Bench für den direkten Einsatz als Trainingsset geeignet?
A: Es kann für Feinabstimmung oder Verstärkungslernen in Forschungsszenarien verwendet werden, aber aufgrund der begrenzten Anzahl an Fragen wird empfohlen, es als Validierungs- oder Testset zu behalten und nur auf einem größeren mathematischen Korpus zu trainieren, um eine Überanpassung dieses Benchmarks zu vermeiden.