Zurück zu KI ist Open Source
AMO-Bench veröffentlicht: Ein großer Modell-Inferenz-Benchmark für IMO-Level-Mathematikwettbewerbe

AMO-Bench veröffentlicht: Ein großer Modell-Inferenz-Benchmark für IMO-Level-Mathematikwettbewerbe

KI ist Open Source Admin 105 Aufrufe

1. Abstract

AMO-Bench ist ein fortgeschrittener Benchmark für mathematisches Denken, der vom LongCat-Team von Meituan gestartet wurde und sich auf Fragen auf Niveau der International Mathematical Olympiad (IMO) und noch schwierigeren Wettbewerbsfragen konzentriert. Der Benchmark besteht aus 50 neuen, von Menschen von Experten entworfenen Fragen, und das System bewertet die wahre obere Grenze des großen Modells im schwierigen mathematischen Schließen mittels automatischer Bewertung und künstlicher Kettendenkannotation (CoT). Die aktuellen öffentlichen Ergebnisse zeigen, dass Kimi-k2-Thinking etwa 56 % erreicht, gefolgt von GPT-5-Thinking (hoch) und Qwen3-235B-Thinking, und die meisten Modelle liegen immer noch unter 40 %.

2. Kernmerkmale

1. Ursprünglicher IMO-Level-Problemsatz: Alle 50 Fragen werden von menschlichen Experten entworfen und verifiziert und sind eindeutig als mindestens IMO-Schwierigkeit markiert, was hilft, die durch das Training des Korpusgedächtnisses verursachte "Brushing-List" zu vermeiden.

2. Hochpräzise automatische Bewertung: Mit einem Bewertungsalgorithmus, der Regeln + Modelle kombiniert, wird ein robuster Vergleich von numerischen Antworten, Ausdrücken usw. durchgeführt, und der offizielle Richter behauptet, dass die Gesamtgenauigkeit der Bewertung 99,2 % erreichen kann.

3. Menschliche Annotation CoT: Jede Frage ist mit einem menschlichen Ketten-Schlussfolgerungsprozess ausgestattet, der für die Analyse von Fehlermustern im Modell praktisch ist und auch als Referenzsignal für anschließende Supervision sowie Feinabstimmung oder Reinforcement Learning dienen kann.

4. Fokus auf das Schließen statt auf das Format: Die Frage erfordert lediglich die endgültige Antwort, ohne vollständigen Beweis, was die Kosten für manuelles Bewerten erheblich senkt und eine groß angelegte reproduzierbare Bewertung unterstützt.

3. Installation

1. Laden Sie AMO-Bench von der Hugging Face-Datensatzseite herunter (oder verwenden Sie datasets und andere Werkzeuge, um es abzurufen) und entpacken Sie es in das lokale Verzeichnis.

  1. Klonen Sie das GitHub-Repository und installieren Sie das Python-Abhängigkeits- und Evaluierungsskript gemäß dem README.
  2. Spezifizieren Sie die Modellaufrufmethode (lokale Inferenz oder Cloud-API) in der Konfigurationsdatei und legen Sie die Ausgabe- und Logpfade fest.
  3. Führe das offizielle Musterskript aus, verifiziere zunächst die Bewertung und den automatischen Bewertungsprozess bei einer kleinen Anzahl von Proben und führe dann eine vollständige Bewertung durch.

4. Typische Anwendungsfälle

1. Benchmark-Bewertung großer Modelle: AMO-Bench wird mit GSM8K, MATH, AIME und anderen Datensätzen kombiniert, um die Unterschiede zwischen High-End-Modellen bei "extremen Problemen" zu unterscheiden.

2. Vergleich von Denkstrategien: Vergleiche die Leistung verschiedener Denkweisen wie direkte Antworten, Schritt-für-Schritt-Denken (CoT) sowie Reflexion und Wiederholung derselben Fragestellung.

3. Trainings- und Feinabstimmungssignale: Verwenden Sie Fragen und menschliches CoT als hochwertige, überwachte Daten, um die mathematische Denkkette des Modells zu stärken.

4. Untersuchen Sie den Token-Overhead und berechnen Sie die Skalierung: Analysieren Sie die Ausgabelänge und den Stromverbrauch verschiedener Modelle und Problemlösungsstrategien auf einem festen Problemsatz.

5. Ökologie und konkurrierende Produkte

1. Ökologie: Das Projekt stellt Datensätze, automatischen Scoring-Code, Beispielskripte und öffentliche Ergebnisse bereit, die leicht auf die bestehende große Modellbewertungspipeline und das LongCat-Ökosystem zugreifen können.

2. Vergleich mit traditionellen Benchmarks: Im Vergleich zu GSM8K, MATH, AIME24/25 und anderen bereits "gesättigten" Benchmarks erhöht AMO-Bench die Schwierigkeit auf den IMO-Bereich; Im Gegensatz zu Benchmarks wie IMO-ProofBench, die die Beweisqualität betonen, konzentriert sich es stärker auf eine Kombination aus "hartem Schließen + automatisierter Bewertung".

6. Einschränkungen und Vorsichtsmaßnahmen

  1. Die Anzahl der Fragen beträgt nur 50, und die allgemeine statistische Sicherheit ist begrenzt, was eher als schwieriger Stresstest und Ranking geeignet ist als allgemeiner Maßstab für umfassende Fähigkeiten.
  2. Die Fragen konzentrieren sich auf den Mathematical Olympiad-Stil der High School, und die Abdeckung von offenem Denken und interdisziplinärer Gesamtkompetenz ist begrenzt.
  3. Obwohl die automatische Bewertung sorgfältig gestaltet ist, können extreme oder unkonventionelle Ausgabeformate dennoch falsch eingeschätzt werden, und die Bewertungsergebnisse der Schlüsselmodelle sollten manuell geprüft und überprüft werden.
  4. Bevor Sie es in Forschung oder Produkten verwenden, prüfen Sie die Lizenzbedingungen des Repositoriums und des Datensatzes, um zu bestätigen, ob kommerzielle Nutzung und Weiterverbreitung erlaubt sind.

7. Projektadresse

https://github.com/meituan-longcat/AMO-Bench 8. FAQs

F: Wie erhält und lädt man den AMO-Bench-Datensatz?

A: Sie können es direkt über den Link auf der Hugging Face-Datensatzseite oder der offiziellen Projektseite herunterladen und es nach der lokalen Extraktion per Frage- und Antwortfeld über Python (wie datasets, benutzerdefinierte Skripte) laden.

F: Welche Arten großer Modelle eignet sich für AMO-Bench eher zur Bewertung?

A: Es richtet sich hauptsächlich an allgemeine große Modelle mit starken mathematischen und symbolischen Denkfähigkeiten, insbesondere an die Version, die den "Thinking/Reasoning/CoT"-Modus bietet; Dieser Benchmark ist für kleine und mittelgroße Modelle oft zu schwierig, und die Punktzahl kann extrem niedrig sein.

F: Wie kann ich mein Experiment reproduzieren oder mein eigenes Modell lokal verbinden?

A: Befolgen Sie die Anweisungen des GitHub-Repositoris, um Abhängigkeiten zu installieren, konfigurieren Sie die Modellinferenzschnittstelle (wie lokalen Inferenzdienst oder Cloud-API) und rufen Sie dann das offizielle Evaluationsskript auf, um eine Antwortdatei zu generieren und diese automatisch zu bewerten.

F: Ist AMO-Bench für den direkten Einsatz als Trainingsset geeignet?

A: Es kann für Feinabstimmung oder Verstärkungslernen in Forschungsszenarien verwendet werden, aber aufgrund der begrenzten Anzahl an Fragen wird empfohlen, es als Validierungs- oder Testset zu behalten und nur auf einem größeren mathematischen Korpus zu trainieren, um eine Überanpassung dieses Benchmarks zu vermeiden.

Einführung in den AMO-Bench Advanced Mathematical Inference Benchmark AMO-Bench IMO Mathematical Olympiad Puzzle-Sammlung Verwenden Sie AMO-Bench, um die obere Grenze der Inferenz großer Modelle zu bewerten AMO-Bench bewertet Kimik2Thinking-Leistung Vergleich der GPT5-Denkwerte in AMO-Bench AMO-BenchQwen3235BThinking-Ranking AMO-Bench ursprüngliche IMO-Schwierigkeitsfragen Wie man AMO-Bench verwendet, um Datensatz-Swiping zu vermeiden AMO-Bench hochpräziser automatischer Wertungsmechanismus Die Genauigkeit des AMO-Bench-Scores erreichte eine Auflösung von 99,2 AMO-Bench Human Chain CoT-Kennzeichnungswert AMO-Bench wurde verwendet, um die Methode des Modellfehlermodus zu analysieren AMO-Bench benötigt nur das Design der Verwenden Sie AMO-Bench als Maßstab für schwierige Stresstests AMO-Bench wird im Gegensatz zu GSM8KMATHAIME Differenzanalyse zwischen AMO-Bench und IMOProofBench AMO-Bench legt mehr Wert auf schwieriges Denken und automatische Bewertung AMO-Bench wurde verwendet, um die Effekte verschiedener Inferenzstrategien zu untersuchen AMO-Bench-Paar-Direktantwort versus CoT-Experiment AMO-Bench unterstützt das Überdenken und Wiederanprobieren mehrerer Runden von Schlussprüfungen AMO-Bench-Fragen eignen sich besser für große allgemeine Modelle Die kleinen und mittelgroßen Modelle schnitten bei AMO-Bench schlecht ab Wie man den AMO-Bench-Datensatz HuggingFace erhält AMO-BenchGitHub-Review-Codeinstallationstutorial Wie man sein eigenes Modell lokal mit AMO-Bench verbindet Anleitungen zur Verwendung von automatischen AMO-Bench-Scoring-Skripten AMO-Bench wurde verwendet, um Token-Overhead und Rechenleistungsskalierung zu untersuchen AMO-Bench eignet sich für Bestenlisten und Stresstests AMO-Bench hat nur 50 Fragen, und die Statistiken sind begrenzt AMO-Bench-Fragen beziehen sich mehr auf den Stil der Mathematical Olympiad der High School AMO-Bench erinnert daran, dass die Abdeckung offener Schlussfolgerung unzureichend ist AMO-Bench kann die Punktzahl bei extremer Leistung falsch einschätzen Bevor Sie AMO-Bench nutzen, sollten Sie die Lizenzbedingungen prüfen AMO-Bench kann als mathematisch fein abgestimmtes hochwertiges Signal verwendet werden Es wird außerdem empfohlen, AMO-Bench als Testset zu verwenden. AMO-Bench wird mit dem Evaluierungsprozess des LongCat-Ökosystems kombiniert AMO-Bench öffentliche Ergebnis-Ranking-Interpretation Wie man AMO-Bench zu einer bestehenden Bewertungspipeline hinzufügt AMO-Bench orientiert sich an den Vorteilen des Thinking-Modells AMO-Bench stellt äußerst hohe Anforderungen an die Fähigkeit zum symbolischen Denken AMO-Bench unterstützt einen robusten Vergleich zwischen Werten und Ausdrücken AMO-Bench Human CoT kann zur Überwachung der Feinabstimmung verwendet werden AMO-Bench hilft dabei, komplexe Fehlertypen im Denken zu untersuchen AMO-Bench eignet sich für bahnbrechende Extrem-Herausforderungen großer Modelle Der potenzielle Wert von AMO-Bench in der mathematischen Forschungsgemeinschaft AMO-Bench liefert den Standard für Wettbewerbs-Inferenz AMO-Bench Fragen Installations- und Konfigurations-FAQs Bewertung der Modellmachbarkeit mit AMO-Bench im Unternehmen AMO-Bench eignet sich als einer der Benchmarks für die Papierbewertung AMO-Bench zukünftige Erweiterung Fragenvolumen und Schwierigkeitsvorstellung AMO-Bench-Link mit offizieller Projektadressbeschreibung

Empfohlene Tools

Mehr