1. Abstract
AMO-Benchは、美団のLongCatチームが立ち上げた高度な数学的推論ベンチマークで、国際数学オリンピアード(IMO)レベルからさらに高難易度の競技問題に焦点を当てています。 ベンチマークは50問の新しい人間が設計した問題で構成されており、システムは自動スコアリングと人工的な連鎖思考(CoT)注釈を通じて、難しい数学的推論における大規模モデルの真の上限を評価します。 現在の公開結果では、Kimi-k2-thinkingが約56%のスコアを得ており、次いでGPT-5-thinking(高い)、Qwen3-235B-Thinkingが続き、ほとんどのモデルはまだ40%未満です。
2. コア機能
1. オリジナルIMOレベルの問題セット:全50問は人間の専門家によって設計・相互検証されており、少なくともIMO難易度として明確に示されており、コーパスメモリの訓練による「ブラッシングリスト」を避けるのに役立ちます。
2. 高精度自動採点:ルール+モデルを組み合わせた採点アルゴリズムを用いて、数値回答や式などの堅牢な比較を行い、公式によれば全体の採点精度は99.2%に達するとされています。
3. ヒューマン注釈CoT:各問題にはヒューマンチェーン推論プロセスが搭載されており、モデルエラーパターンの分析に便利であり、その後の監督や微調整、強化学習の参照信号としても利用できます。
4. 形式よりも推論に重点を置く:この問題は完全な証明なしに最終回答のみを要求し、手作業採点のコストを大幅に削減し、大規模な再現性評価を支援します。
3. インストール
1. Hugging FaceデータセットページからAMO-Benchをダウンロード(またはdatasetsなどのツールで取得)し、ローカルディレクトリに抽出してください。
- GitHubリポジトリをクローンし、READMEに従ってPython依存関係および評価スクリプトをインストールする。
- 設定ファイル内でモデルコールメソッド(ローカル推論またはクラウドAPI)を指定し、出力パスとログパスを設定します。
- 公式サンプルスクリプトを実行し、まず少数のサンプルで評価と自動採点プロセスを検証し、その後完全な評価を行います。
4. 典型的なユースケース
1. 大規模モデルのベンチマーク評価:AMO-BenchはGSM8K、MATH、AIMEなどのデータセットと組み合わせて、「極限問題」におけるハイエンドモデルの違いを区別します。
2. 推論戦略の比較:直接回答、ステップバイステップ思考(CoT)、同じ問題群に対する反省と再挑戦など、異なる推論モードのパフォーマンスを比較します。
3. 訓練と信号の微調整:質問と人間のCoTを高品質な監督データとして用いて、モデルの数学的推論チェーンを強化します。
4. トークンオーバーヘッドの研究と計算スケーリング:固定された問題セット上で異なるモデルや問題解決戦略の出力長と計算能力消費を分析します。
5. 生態学と競合製品
1. 生態学:このプロジェクトはデータセット、自動スコアリングコード、サンプルスクリプト、公開結果を提供し、既存の大規模モデル評価パイプラインやLongCatエコシステムに容易にアクセスできる。
2. 従来のベンチマークとの比較:GSM8K、MATH、AIME24/25などすでに「飽和」した他のベンチマークと比べて、AMO-Benchは難易度をIMO水準に引き上げています。 IMO-ProofBenchのような証明の品質を重視するベンチマークとは異なり、「ハード推論+自動評価」の組み合わせにより重点を置いています。
6. 制限と注意事項
- 問題数はわずか50問で、全体的な統計的信頼度も限られており、包括的な能力をカバーする一般的なベンチマークというよりは、難しいストレステストやランキングとして使うのに適しています。
- 問題は高校の数学オリンピアードスタイルに焦点を当てており、オープンエンドの推論や学際的な総合能力のカバーは限定的です。
- 自動スコアリングは慎重に設計されていますが、極端または異例の出力フォーマットは誤判断される可能性があり、主要モデルの評価結果は手動でサンプリング・レビューすることが推奨されます。
- 研究や製品で使用する前に、リポジトリおよびデータセットのライセンス条件を確認し、商業利用や再配布が許可されているかを確認してください。
7. プロジェクトアドレス
https://github.com/meituan-longcat/AMO-Bench 8. よくある質問
Q: AMO-Benchデータセットの取得と読み込み方法は?
A: Hugging Faceのデータセットページや公式プロジェクトページにあるリンクから直接ダウンロードでき、ローカル抽出後にPython(datasetsやカスタムスクリプトなど)で質問と回答欄で読み込むことができます。
Q: AMO-Benchはどのような大型モデルの評価により適していますか?
A: 主に強力な数学的・記号的推論能力を持つ一般的な大規模モデルを対象としており、特に「思考/推論/CoT」モードを提供するバージョンを対象としています。 このベンチマークは小・中型モデルには難しすぎることが多く、スコアは非常に低いこともあります。
Q: 実験を再現したり、自分のモデルをローカルに結びつけるにはどうすればいいですか?
A: GitHubリポジトリの指示に従い、依存関係をインストールし、モデル推論インターフェース(ローカル推論サービスやクラウドAPIなど)を設定し、公式の評価スクリプトを呼び出して回答ファイルを生成し、自動的に採点します。
Q: AMO-Benchはトレーニングセットとして直接使用するのに適していますか?
A: 研究シナリオでの微調整や強化学習に使用できますが、問題数が限られているため、検証セットやテストセットとして保持し、ベンチマークの過学習を避けるためにより大きな数学コーパスでのみ訓練することが推奨されます。