Retour à L’IA est open source
AMO-Bench publié : Un grand benchmark d’inférence de modèles pour les compétitions mathématiques de niveau IMO

AMO-Bench publié : Un grand benchmark d’inférence de modèles pour les compétitions mathématiques de niveau IMO

L’IA est open source Admin 105 vues

1. Abstract

AMO-Bench est une référence avancée de raisonnement mathématique lancée par l’équipe LongCat de Meituan, axée sur les questions de niveau Olympiade Internationale de Mathématiques (IMO) et même sur des compétitions de difficulté supérieure. Le benchmark consiste en 50 nouvelles questions conçues par des experts humains, et le système évalue la véritable limite supérieure du grand modèle dans un raisonnement mathématique difficile grâce à l’évaluation automatique et à l’annotation par pensée en chaîne artificielle (CoT). Les résultats publics actuels montrent que Kimi-k2-Thinking obtient environ 56 %, suivi de GPT-5-thinking (élevé) et Qwen3-235B-Thinking, et la plupart des modèles restent en dessous de 40 %.

2. Caractéristiques principales

1. Ensemble de problèmes original au niveau IMO : Les 50 questions sont toutes conçues et vérifiées par des experts humains, et sont clairement marquées comme au moins comme difficulté selon mon avis, ce qui aide à éviter la « liste de brossage » causée par la mémoire des corpus d’entraînement.

2. Notation automatique de haute précision : En utilisant un algorithme de notation qui mélange règles + modèles, il effectue une comparaison robuste des réponses numériques, des expressions, etc., et des affirmations officielles selon lesquelles la précision globale du score peut atteindre 99,2 %.

3. Annotation humaine CoT : Chaque question est équipée d’un processus de raisonnement en chaîne humaine, pratique pour analyser les schémas d’erreur des modèles et peut également servir de signal de référence pour la supervision et l’ajustement fin ou l’apprentissage par renforcement.

4. Concentrez-vous sur le raisonnement plutôt que sur le format : La question ne nécessite que la réponse finale, sans preuve complète, ce qui réduit considérablement le coût de la correction manuelle et permet une évaluation reproductible à grande échelle.

3. Installation

1. Télécharger AMO-Bench depuis la page du jeu de données Hugging Face (ou utiliser datasets et d’autres outils pour l’extraire) et l’extraire dans le répertoire local.

  1. Cloner le dépôt GitHub et installer le script de dépendance et d’évaluation Python selon le README.
  2. Spécifier la méthode d’appel de modèle (inférence locale ou API cloud) dans le fichier de configuration, et définir les chemins de sortie et de journal.
  3. Exécuter le script d’exemple officiel, vérifier d’abord l’évaluation et le processus de notation automatique sur un petit nombre d’échantillons, puis effectuer une évaluation complète.

4. Cas d’usage typiques

1. Évaluation de benchmark de grands modèles : AMO-Bench est combiné avec GSM8K, MATH, AIME et d’autres ensembles de données pour distinguer les différences entre les modèles haut de gamme dans les « problèmes extrêmes ».

2. Comparaison des stratégies de raisonnement : Comparez la performance de différents modes de raisonnement tels que les réponses directes, la pensée étape par étape (CoT) et la réflexion, puis réessayez sur le même ensemble de questions.

3. Entraînement et ajustement fin des signaux : Utiliser les questions et la CoT humaine comme données supervisées de haute qualité pour renforcer la chaîne de raisonnement mathématique du modèle.

4. Étudier la surcharge des jetons et l’échelle de calcul : analyser la longueur de sortie et la consommation de puissance de calcul de différents modèles et stratégies de résolution de problèmes sur un ensemble de problèmes fixe.

5. Écologie et produits concurrents

1. Écologie : Le projet fournit des ensembles de données, du code de notation automatique, des scripts d’exemple et des résultats publics, ce qui permet d’accéder facilement à la chaîne existante d’évaluation de grands modèles et à l’écosystème LongCat.

2. Comparaison avec les benchmarks traditionnels : Comparé à GSM8K, MATH, AIME24/25 et d’autres benchmarks déjà « saturés », AMO-Bench élève la difficulté à la fourchette IMO ; Contrairement à des benchmarks comme IMO-ProofBench, qui mettent l’accent sur la qualité des preuves, il se concentre davantage sur une combinaison de « raisonnement rigoureux + évaluation automatisée ».

6. Limitations et précautions

  1. Le nombre de questions n’est que de 50, et la confiance statistique globale est limitée, ce qui convient mieux à un test de résistance difficile et à un classement plutôt qu’à un repère général couvrant des capacités globales.
  2. Les questions portent sur le style de l’Olympiade mathématique du lycée, et la couverture du raisonnement ouvert et de la capacité interdisciplinaire est limitée.
  3. Bien que le notation automatique soit soigneusement conçue, les formats de sortie extrêmes ou non conventionnels peuvent encore être mal jugés, et il est recommandé d’échantillonner et de revoir manuellement les résultats d’évaluation des modèles clés.
  4. Avant de l’utiliser dans la recherche ou les produits, vérifiez les termes de licence du dépôt et du jeu de données pour confirmer si l’utilisation commerciale et la redistribution sont autorisées.

7. Adresse du projet

https://github.com/meituan-longcat/AMO-Bench 8. FAQ

Q : Comment obtenir et charger le jeu de données AMO-Bench ?

R : Vous pouvez le télécharger directement à partir du lien fourni par la page de jeu de données Hugging Face ou la page officielle du projet, et le charger par champ de questions et réponses via Python (comme datasets, des scripts personnalisés) après extraction locale.

Q : Quels types de grands modèles AMO-Bench est-il plus adapté à l’évaluation ?

R : Il s’adresse principalement aux grands modèles généraux dotés de fortes capacités de raisonnement mathématique et symbolique, en particulier la version qui propose le mode « Pensée/Raisonnement/CoT » ; Ce benchmark est souvent trop difficile pour les modèles de petite et moyenne taille, et le score peut être extrêmement bas.

Q : Comment puis-je reproduire mon expérience ou connecter mon propre modèle localement ?

R : Suivez les instructions du dépôt GitHub pour installer les dépendances, configurez l’interface d’inférence du modèle (comme un service d’inférence local ou une API cloud), puis appelez le script d’évaluation officiel pour générer un fichier de réponses et le noter automatiquement.

Q : AMO-Bench est-il adapté à une utilisation directe comme ensemble d’entraînement ?

R : Il peut être utilisé pour l’ajustement fin ou l’apprentissage par renforcement dans des scénarios de recherche, mais en raison du nombre limité de questions, il est recommandé de le conserver comme ensemble de validation ou de test, et de ne s’entraîner que sur un corpus mathématique plus large afin d’éviter de sur-ajuster cette référence.

Introduction à l’AMO-Bench Benchmark d’inférence mathématique avancée AMO-Bench IMO Collection de puzzles de l’Olympiade Mathématique Utilisez AMO-Bench pour évaluer la limite supérieure de l’inférence sur grand modèle AMO-Bench note la performance de Kimik2Thinking Comparaison des scores de pensée GPT5 dans AMO-Bench AMO-BenchQwen3235BTnkinsking classement AMO-Bench : les caractéristiques originales de la question de difficulté à mon avis Comment utiliser AMO-Bench pour éviter le swipping de jeux de données Mécanisme automatique de notation AMO-Bench de haute précision La précision du score AMO-Bench a atteint une résolution de 99,2 AMO-Bench Valeur de l’étiquetage de la chaîne humaine CoT AMO-Bench a été utilisé pour analyser la méthode du mode d’erreur du modèle AMO-Bench ne nécessite que la conception finale de la réponse Utilisez AMO-Bench comme référence pour des tests de résistance difficiles AMO-Bench est utilisé en contraste avec GSM8KMATHAIME Analyse des différences entre AMO-Bench et IMOProofBench AMO-Bench accorde plus d’attention au raisonnement difficile et à l’évaluation automatique AMO-Bench a été utilisé pour étudier les effets de différentes stratégies d’inférence Expérience AMO-Bench pair direct réponse contre CoT AMO-Bench soutient la repensée et la reprise de plusieurs cycles d’évaluations d’inférence Les questions AMO-Bench conviennent mieux aux grands modèles polyvalents Les modèles de petite et moyenne taille ont obtenu de faibles scores sur AMO-Bench Comment obtenir le jeu de données AMO-Bench HuggingFace Tutoriel d’installation du code de revue AMO-BenchGitHub Comment connecter son propre modèle en utilisant AMO-Bench localement Instructions pour utiliser les scripts de notation automatique AMO-Bench AMO-Bench a été utilisé pour étudier la surcharge des jetons et la mise à l’échelle de la puissance de calcul AMO-Bench convient aux classements et aux tests de résistance AMO-Bench ne contient que 50 questions, et les statistiques sont limitées Les questions AMO-Bench portent davantage sur le style de l’Olympiade de mathématiques du lycée AMO-Bench vous rappelle que la couverture de l’inférence ouverte est insuffisante AMO-Bench peut mal évaluer la partition en cas de sortie extrême Avant d’utiliser AMO-Bench, vous devez vérifier les conditions de licence AMO-Bench peut être utilisé comme signal de haute qualité mathématiquement finement réglé Il est également recommandé de conserver AMO-Bench comme ensemble de test AMO-Bench est combiné avec le processus d’évaluation des écosystèmes LongCat Interprétation du classement des résultats publics AMO-Bench Comment ajouter AMO-Bench à une chaîne d’évaluation existante AMO-Bench est orienté vers les avantages du modèle de pensée AMO-Bench a des exigences extrêmement élevées en matière de capacité de raisonnement symbolique AMO-Bench supporte une comparaison robuste entre valeurs et expressions AMO-Bench Human CoT peut être utilisé pour superviser l’ajustement fin AMO-Bench aide à étudier les types complexes d’erreurs de raisonnement AMO-Bench convient aux défis extrêmes de grande technologie de grande technologie La valeur potentielle de l’AMO-Bench dans la communauté de la recherche mathématique AMO-Bench fournit la norme pour l’inférence au niveau de la compétition FAQ sur l’installation et la configuration du jeu de questions AMO-Bench Évaluer la faisabilité du modèle avec AMO-Bench au sein de l’entreprise AMO-Bench est adapté comme l’un des repères pour l’évaluation des articles AMO-Bench question sur l’expansion future, volume et perspectives de difficulté Lien AMO-Bench avec description officielle de l’adresse du projet

Outils Recommandés

Plus