戻るAIはオープンソースです
AMO-Benchリリース:IMOレベルの数学競技のための大規模モデル推論ベンチマーク

AMO-Benchリリース:IMOレベルの数学競技のための大規模モデル推論ベンチマーク

AIはオープンソースです Admin 105 回閲覧

1. Abstract

AMO-Benchは、美団のLongCatチームが立ち上げた高度な数学的推論ベンチマークで、国際数学オリンピアード(IMO)レベルからさらに高難易度の競技問題に焦点を当てています。 ベンチマークは50問の新しい人間が設計した問題で構成されており、システムは自動スコアリングと人工的な連鎖思考(CoT)注釈を通じて、難しい数学的推論における大規模モデルの真の上限を評価します。 現在の公開結果では、Kimi-k2-thinkingが約56%のスコアを得ており、次いでGPT-5-thinking(高い)、Qwen3-235B-Thinkingが続き、ほとんどのモデルはまだ40%未満です。

2. コア機能

1. オリジナルIMOレベルの問題セット:全50問は人間の専門家によって設計・相互検証されており、少なくともIMO難易度として明確に示されており、コーパスメモリの訓練による「ブラッシングリスト」を避けるのに役立ちます。

2. 高精度自動採点:ルール+モデルを組み合わせた採点アルゴリズムを用いて、数値回答や式などの堅牢な比較を行い、公式によれば全体の採点精度は99.2%に達するとされています。

3. ヒューマン注釈CoT:各問題にはヒューマンチェーン推論プロセスが搭載されており、モデルエラーパターンの分析に便利であり、その後の監督や微調整、強化学習の参照信号としても利用できます。

4. 形式よりも推論に重点を置く:この問題は完全な証明なしに最終回答のみを要求し、手作業採点のコストを大幅に削減し、大規模な再現性評価を支援します。

3. インストール

1. Hugging FaceデータセットページからAMO-Benchをダウンロード(またはdatasetsなどのツールで取得)し、ローカルディレクトリに抽出してください。

  1. GitHubリポジトリをクローンし、READMEに従ってPython依存関係および評価スクリプトをインストールする。
  2. 設定ファイル内でモデルコールメソッド(ローカル推論またはクラウドAPI)を指定し、出力パスとログパスを設定します。
  3. 公式サンプルスクリプトを実行し、まず少数のサンプルで評価と自動採点プロセスを検証し、その後完全な評価を行います。

4. 典型的なユースケース

1. 大規模モデルのベンチマーク評価:AMO-BenchはGSM8K、MATH、AIMEなどのデータセットと組み合わせて、「極限問題」におけるハイエンドモデルの違いを区別します。

2. 推論戦略の比較:直接回答、ステップバイステップ思考(CoT)、同じ問題群に対する反省と再挑戦など、異なる推論モードのパフォーマンスを比較します。

3. 訓練と信号の微調整:質問と人間のCoTを高品質な監督データとして用いて、モデルの数学的推論チェーンを強化します。

4. トークンオーバーヘッドの研究と計算スケーリング:固定された問題セット上で異なるモデルや問題解決戦略の出力長と計算能力消費を分析します。

5. 生態学と競合製品

1. 生態学:このプロジェクトはデータセット、自動スコアリングコード、サンプルスクリプト、公開結果を提供し、既存の大規模モデル評価パイプラインやLongCatエコシステムに容易にアクセスできる。

2. 従来のベンチマークとの比較:GSM8K、MATH、AIME24/25などすでに「飽和」した他のベンチマークと比べて、AMO-Benchは難易度をIMO水準に引き上げています。 IMO-ProofBenchのような証明の品質を重視するベンチマークとは異なり、「ハード推論+自動評価」の組み合わせにより重点を置いています。

6. 制限と注意事項

  1. 問題数はわずか50問で、全体的な統計的信頼度も限られており、包括的な能力をカバーする一般的なベンチマークというよりは、難しいストレステストやランキングとして使うのに適しています。
  2. 問題は高校の数学オリンピアードスタイルに焦点を当てており、オープンエンドの推論や学際的な総合能力のカバーは限定的です。
  3. 自動スコアリングは慎重に設計されていますが、極端または異例の出力フォーマットは誤判断される可能性があり、主要モデルの評価結果は手動でサンプリング・レビューすることが推奨されます。
  4. 研究や製品で使用する前に、リポジトリおよびデータセットのライセンス条件を確認し、商業利用や再配布が許可されているかを確認してください。

7. プロジェクトアドレス

https://github.com/meituan-longcat/AMO-Bench 8. よくある質問

Q: AMO-Benchデータセットの取得と読み込み方法は?

A: Hugging Faceのデータセットページや公式プロジェクトページにあるリンクから直接ダウンロードでき、ローカル抽出後にPython(datasetsやカスタムスクリプトなど)で質問と回答欄で読み込むことができます。

Q: AMO-Benchはどのような大型モデルの評価により適していますか?

A: 主に強力な数学的・記号的推論能力を持つ一般的な大規模モデルを対象としており、特に「思考/推論/CoT」モードを提供するバージョンを対象としています。 このベンチマークは小・中型モデルには難しすぎることが多く、スコアは非常に低いこともあります。

Q: 実験を再現したり、自分のモデルをローカルに結びつけるにはどうすればいいですか?

A: GitHubリポジトリの指示に従い、依存関係をインストールし、モデル推論インターフェース(ローカル推論サービスやクラウドAPIなど)を設定し、公式の評価スクリプトを呼び出して回答ファイルを生成し、自動的に採点します。

Q: AMO-Benchはトレーニングセットとして直接使用するのに適していますか?

A: 研究シナリオでの微調整や強化学習に使用できますが、問題数が限られているため、検証セットやテストセットとして保持し、ベンチマークの過学習を避けるためにより大きな数学コーパスでのみ訓練することが推奨されます。

AMO-Bench 上級数学推論ベンチマーク紹介 AMO-Bench IMO数学オリンピアードパズルコレクション AMO-Benchを使って大規模モデル推論の上限を評価してください AMO-BenchがKimik2Thinkingのパフォーマンスを評価 AMO-BenchにおけるGPT5思考スコアの比較 AMO-BenchQwen3235Bタイキングランキング AMO-Benchのオリジナルの難易度問題の特徴 AMO-Benchを使ってデータセットのスワイプを避ける方法 AMO-Bench高精度自動スコアリング機構 AMO-Benchスコアの精度は99.2の解像度に達しました AMO-ベンチヒューマンチェーンCoTラベリング値 AMO-Benchはモデル誤差モード法の解析に用いられました AMO-Benchは最終解答設計のみを要求します 難しいストレステストのベンチマークとしてAMO-Benchを活用しましょう AMO-BenchはGSM8KMATHAIMEと対比して使われています AMO-BenchとIMOProofBenchの違い分析 AMO-Benchは難しい推論や自動評価により注意を払っています AMO-Benchは異なる推論戦略の効果を研究するために用いられました AMO-ベンチペア直接回答対CoT実験 AMO-Benchは、推論評価の複数ラウンドを再考・再試すことを支援します AMO-ベンチ問題は大規模な汎用モデルにより適しています 小型および中型モデルはAMO-Benchで低評価でした AMO-BenchデータセットHuggingFaceの入手方法 AMO-BenchGitHub レビューコードインストールチュートリアル AMO-Benchを使って自分のモデルをローカルに接続する方法 AMO-Bench自動スコアリングスクリプトの使用手順 AMO-Benchはトークンオーバーヘッドや計算能力のスケーリングの研究に使用されました AMO-Benchはリーダーボード作成やストレステストに適しています AMO-Benchは50問しかなく、統計も限られています AMO-ベンチの問題は高校数学オリンピアードのスタイルに関するものです AMO-Benchは、オープンインフレンスの適用範囲が不十分であることを思い出させてくれます AMO-ベンチは極端な出力でスコアを誤判することがあります AMO-Benchを使う前に、ライセンス条件を確認する必要があります AMO-Benchは、数学的に微調整された高品質信号として使用できます また、AMO-Benchをテストセットとして保持することも推奨されます AMO-BenchはLongCat生態系評価プロセスと統合されています AMO-ベンチの公的結果ランキングの解釈 既存の評価パイプラインにAMO-Benchを追加する方法 AMO-Benchは思考モデルの利点を重視しています AMO-Benchは記号的推論能力に非常に高い要件を持っています AMO-Benchは値と式の堅牢な比較をサポートします AMO-Bench Human CoTは微調整の監督に使用できます AMO-Benchは複雑な推論エラーの研究に役立ちます AMO-Benchは最先端の大型モデルの極限チャレンジに適しています 数学研究コミュニティにおけるAMO-Benchの潜在的価値 AMO-Benchは競技レベルの推論の標準を提供します AMO-Bench 質問セット インストールおよび設定に関するよくある質問 企業内でAMO-Benchを用いたモデルの実現可能性を評価してください AMO-Benchは論文評価のベンチマークの一つとして適しています AMO-Bench 拡張の今後の問題量と難易度見通し AMO-Benchリンクと公式プロジェクト住所の説明

関連記事

24時間AIニュース:ジェミニ3号デビュー、国内AIガバナンス加速

24時間AIニュース:ジェミニ3号デビュー、国内AIガバナンス加速

過去24時間(2025年11月18日〜19日)で、海外AIトラックはGoogle Gemini 3のリリースと数十億ドル規模の投資・資金調達を促しました。一方、中国では政府関連プラットフォーム、基礎科...

Adobeは、ブランドの可視性とAI検索を展開するため、約19億ドルでSemrushを買収する意向を発表しました

Adobeは、ブランドの可視性とAI検索を展開するため、約19億ドルでSemrushを買収する意向を発表しました

2025年11月19日、AdobeとSemrushは共同発表を行い、両者が最終的な合意に署名したことを確認しました。Adobeはニューヨーク証券取引所に上場しているSemrushを、1株あたり1株あた...

Mem0はエージェントと統合する価値がありますか? 長期記憶は役立ちますが、境界線を管理する必要があります

Mem0はエージェントと統合する価値がありますか? 長期記憶は役立ちますが、境界線を管理する必要があります

Mem0は、AIアプリケーションやエージェント向けのオープンソースメモリ層プロジェクトで、アプリのユーザーの好み、歴史的事実、長期的な文脈を記憶するのを支援することを目的としています。 パーソナライズ...

ヘイスタックはどのようなチームに適しているのでしょうか? むしろコンポジタブルなRAGエンジニアリングフレームワークのようなものです

ヘイスタックはどのようなチームに適しているのでしょうか? むしろコンポジタブルなRAGエンジニアリングフレームワークのようなものです

HaystackはDeepSetが保守するオープンソースのAIアプリケーションフレームワークで、RAG構築、ドキュメントQ&A、検索パイプライン、LLMワークフローの構築に一般的に使用されています。 ...

おすすめツール

もっと見る