AMO-Bench publié : Un grand benchmark d’inférence de modèles pour les compétitions mathématiques de niveau IMO

1. Abstract

AMO-Bench est une référence avancée de raisonnement mathématique lancée par l’équipe LongCat de Meituan, axée sur les questions de niveau Olympiade Internationale de Mathématiques (IMO) et même sur des compétitions de difficulté supérieure. Le benchmark consiste en 50 nouvelles questions conçues par des experts humains, et le système évalue la véritable limite supérieure du grand modèle dans un raisonnement mathématique difficile grâce à l’évaluation automatique et à l’annotation par pensée en chaîne artificielle (CoT). Les résultats publics actuels montrent que Kimi-k2-Thinking obtient environ 56 %, suivi de GPT-5-thinking (élevé) et Qwen3-235B-Thinking, et la plupart des modèles restent en dessous de 40 %.

2. Caractéristiques principales

1. Ensemble de problèmes original au niveau IMO : Les 50 questions sont toutes conçues et vérifiées par des experts humains, et sont clairement marquées comme au moins comme difficulté selon mon avis, ce qui aide à éviter la « liste de brossage » causée par la mémoire des corpus d’entraînement.

2. Notation automatique de haute précision : En utilisant un algorithme de notation qui mélange règles + modèles, il effectue une comparaison robuste des réponses numériques, des expressions, etc., et des affirmations officielles selon lesquelles la précision globale du score peut atteindre 99,2 %.

3. Annotation humaine CoT : Chaque question est équipée d’un processus de raisonnement en chaîne humaine, pratique pour analyser les schémas d’erreur des modèles et peut également servir de signal de référence pour la supervision et l’ajustement fin ou l’apprentissage par renforcement.

4. Concentrez-vous sur le raisonnement plutôt que sur le format : La question ne nécessite que la réponse finale, sans preuve complète, ce qui réduit considérablement le coût de la correction manuelle et permet une évaluation reproductible à grande échelle.

3. Installation

1. Télécharger AMO-Bench depuis la page du jeu de données Hugging Face (ou utiliser datasets et d’autres outils pour l’extraire) et l’extraire dans le répertoire local.

Cloner le dépôt GitHub et installer le script de dépendance et d’évaluation Python selon le README.
Spécifier la méthode d’appel de modèle (inférence locale ou API cloud) dans le fichier de configuration, et définir les chemins de sortie et de journal.
Exécuter le script d’exemple officiel, vérifier d’abord l’évaluation et le processus de notation automatique sur un petit nombre d’échantillons, puis effectuer une évaluation complète.

4. Cas d’usage typiques

1. Évaluation de benchmark de grands modèles : AMO-Bench est combiné avec GSM8K, MATH, AIME et d’autres ensembles de données pour distinguer les différences entre les modèles haut de gamme dans les « problèmes extrêmes ».

2. Comparaison des stratégies de raisonnement : Comparez la performance de différents modes de raisonnement tels que les réponses directes, la pensée étape par étape (CoT) et la réflexion, puis réessayez sur le même ensemble de questions.

3. Entraînement et ajustement fin des signaux : Utiliser les questions et la CoT humaine comme données supervisées de haute qualité pour renforcer la chaîne de raisonnement mathématique du modèle.

4. Étudier la surcharge des jetons et l’échelle de calcul : analyser la longueur de sortie et la consommation de puissance de calcul de différents modèles et stratégies de résolution de problèmes sur un ensemble de problèmes fixe.

5. Écologie et produits concurrents

1. Écologie : Le projet fournit des ensembles de données, du code de notation automatique, des scripts d’exemple et des résultats publics, ce qui permet d’accéder facilement à la chaîne existante d’évaluation de grands modèles et à l’écosystème LongCat.

2. Comparaison avec les benchmarks traditionnels : Comparé à GSM8K, MATH, AIME24/25 et d’autres benchmarks déjà « saturés », AMO-Bench élève la difficulté à la fourchette IMO ; Contrairement à des benchmarks comme IMO-ProofBench, qui mettent l’accent sur la qualité des preuves, il se concentre davantage sur une combinaison de « raisonnement rigoureux + évaluation automatisée ».

6. Limitations et précautions

Le nombre de questions n’est que de 50, et la confiance statistique globale est limitée, ce qui convient mieux à un test de résistance difficile et à un classement plutôt qu’à un repère général couvrant des capacités globales.
Les questions portent sur le style de l’Olympiade mathématique du lycée, et la couverture du raisonnement ouvert et de la capacité interdisciplinaire est limitée.
Bien que le notation automatique soit soigneusement conçue, les formats de sortie extrêmes ou non conventionnels peuvent encore être mal jugés, et il est recommandé d’échantillonner et de revoir manuellement les résultats d’évaluation des modèles clés.
Avant de l’utiliser dans la recherche ou les produits, vérifiez les termes de licence du dépôt et du jeu de données pour confirmer si l’utilisation commerciale et la redistribution sont autorisées.

7. Adresse du projet

https://github.com/meituan-longcat/AMO-Bench 8. FAQ

Q : Comment obtenir et charger le jeu de données AMO-Bench ?

R : Vous pouvez le télécharger directement à partir du lien fourni par la page de jeu de données Hugging Face ou la page officielle du projet, et le charger par champ de questions et réponses via Python (comme datasets, des scripts personnalisés) après extraction locale.

Q : Quels types de grands modèles AMO-Bench est-il plus adapté à l’évaluation ?

R : Il s’adresse principalement aux grands modèles généraux dotés de fortes capacités de raisonnement mathématique et symbolique, en particulier la version qui propose le mode « Pensée/Raisonnement/CoT » ; Ce benchmark est souvent trop difficile pour les modèles de petite et moyenne taille, et le score peut être extrêmement bas.

Q : Comment puis-je reproduire mon expérience ou connecter mon propre modèle localement ?

R : Suivez les instructions du dépôt GitHub pour installer les dépendances, configurez l’interface d’inférence du modèle (comme un service d’inférence local ou une API cloud), puis appelez le script d’évaluation officiel pour générer un fichier de réponses et le noter automatiquement.

Q : AMO-Bench est-il adapté à une utilisation directe comme ensemble d’entraînement ?

R : Il peut être utilisé pour l’ajustement fin ou l’apprentissage par renforcement dans des scénarios de recherche, mais en raison du nombre limité de questions, il est recommandé de le conserver comme ensemble de validation ou de test, et de ne s’entraîner que sur un corpus mathématique plus large afin d’éviter de sur-ajuster cette référence.

Articles connexes

Actualités IA 24h/24 : Gemini 3 fait ses débuts, la gouvernance domestique de l’IA s’accélère

Adobe a annoncé son intention d’acquérir Semrush pour environ 1,9 milliard de dollars afin de déployer la visibilité de la marque et la recherche par IA

Mem0 vaut-il la peine d’être intégré à un agent ? La mémoire à long terme est utile, mais il faut gérer les limites

Quel type d’équipe Haystack convient-il ? C’est plutôt comme un framework d’ingénierie RAG composable

Outils Recommandés