返回Ai开源
AMO-Bench 发布:面向 IMO 级数学竞赛的大模型推理基准

AMO-Bench 发布:面向 IMO 级数学竞赛的大模型推理基准

Ai开源 Admin 105 次浏览

一、摘要

AMO-Bench 是美团 LongCat 团队推出的高级数学推理基准,聚焦于国际数学奥林匹克(IMO)级别乃至更高难度的竞赛题。基准由 50 道全新人类专家设计题目构成,通过自动评分与人工链式思维(CoT)标注,系统评测大模型在高难度数理推理上的真实上限。当前公开结果显示,Kimi-k2-Thinking 得分约 56%,GPT-5-thinking(high)与 Qwen3-235B-Thinking 紧随其后,大部分模型仍低于 40%。

二、核心特性

1、原创 IMO 级难题集:50 道题均由人类专家设计与交叉验证,明确标定为至少 IMO 难度,有助于避免训练语料记忆带来的“刷榜”。

2、高精度自动评分:采用规则 + 模型混合的评分算法,对数值答案、表达式等进行鲁棒比对,官方宣称整体评分准确率可达 99.2%。

3、人类标注 CoT:每道题配有人类链式推理过程,方便分析模型错误模式,也可作为后续监督微调或强化学习的参考信号。

4、专注推理而非格式:题目仅要求最终答案,无需完整证明,大幅降低人工评卷成本,支持大规模可复现评测。

三、安装

1、从 Hugging Face 数据集页面下载 AMO-Bench(或使用 datasets 等工具拉取),解压到本地目录。

2、克隆 GitHub 仓库,按照 README 安装 Python 依赖与评测脚本。

3、在配置文件中指定模型调用方式(本地推理或云端 API)、并设定输出与日志路径。

4、运行官方示例脚本,先在少量样例上验证评测与自动打分流程,再进行全量评测。

四、典型用例

1、大模型基准评测:将 AMO-Bench 与 GSM8K、MATH、AIME 等数据集组合,用于区分高端模型在“极限难题”上的差异。

2、推理策略对比:对比直接回答、逐步思考(CoT)、反思重试等不同推理模式在同一题集上的表现。

3、训练与微调信号:将题目与人类 CoT 作为高质量监督数据,用于强化模型的数学推理链条。

4、研究 token 开销与 compute scaling:在固定题集上分析不同模型及解题策略的输出长度与算力消耗。

五、生态与竞品

1、生态:项目提供数据集、自动评分代码、示例脚本与公开结果,可方便接入现有的大模型评测流水线与 LongCat 生态。

2、与传统基准对比:相较于 GSM8K、MATH、AIME24/25 等已经出现“成绩饱和”的基准,AMO-Bench 将难度抬升到 IMO 区间;与强调证明质量的 IMO-ProofBench 等基准不同,它更关注“高难推理 + 自动评测”的结合。

六、局限与注意事项

1、题目数量仅 50 道,整体统计置信度有限,更适合用作高难度压力测试和排行榜,而非覆盖全面能力的通用基准。

2、题目集中于高中奥数风格,对开放式推理、跨学科综合能力的覆盖有限。

3、自动评分虽经精心设计,极端或非常规输出格式仍可能出现误判,关键模型评测结果建议抽样人工复核。

4、在研究或产品中使用前,应核对仓库与数据集的 License 条款,确认是否允许商用与再分发。

七、项目地址

https://github.com/meituan-longcat/AMO-Bench

八、常见问题

Q:AMO-Bench 数据集如何获取与加载?

A:可以直接从 Hugging Face 数据集页面或官方项目页提供的链接下载,本地解压后通过 Python(如 datasets、自定义脚本)按题目与答案字段进行加载。

Q:AMO-Bench 更适合评测哪些类型的大模型?

A:主要面向具备较强数学与符号推理能力的通用大模型,尤其是提供“Thinking/Reasoning/CoT”模式的版本;对中小模型来说,该基准往往过于困难,得分可能极低。

Q:如何在本地复现实验或接入自己的模型?

A:按照 GitHub 仓库说明安装依赖,配置模型推理接口(如本地推理服务或云端 API),再调用官方评测脚本统一生成答案文件并自动打分,即可得到与论文同分布的指标。

Q:AMO-Bench 是否适合直接用作训练集?

A:可以在研究场景中用于微调或强化学习,但由于题目数量有限,更推荐将其保留为验证集或测试集,仅在更大规模数学语料上进行训练,以避免过拟合该基准。

AMO-Bench高级数学推理基准介绍 AMO-BenchIMO级奥数难题集合 使用AMO-Bench评测大模型推理上限 AMO-Bench对Kimik2Thinking得分表现 AMO-Bench中GPT5Thinking成绩对比 AMO-BenchQwen3235BThinking排名情况 AMO-Bench原创IMO难度题目特点 如何用AMO-Bench避免数据集刷榜 AMO-Bench高精度自动评分机制 AMO-Bench评分准确率达99.2解析 AMO-Bench人类链式CoT标注价值 用AMO-Bench分析模型错误模式方法 AMO-Bench只要求最终答案设计 将AMO-Bench作为高难压力测试基准 AMO-Bench与GSM8KMATHAIME对比使用 AMO-Bench与IMOProofBench差异分析 AMO-Bench更关注高难推理与自动评测 用AMO-Bench研究不同推理策略效果 AMO-Bench对直接回答与CoT对比实验 AMO-Bench支持反思重试多轮推理评估 AMO-Bench题目更适合大型通用模型 中小模型在AMO-Bench上得分偏低 AMO-Bench数据集HuggingFace获取方式 AMO-BenchGitHub评测代码安装教程 如何在本地用AMO-Bench接入自家模型 AMO-Bench自动评分脚本使用说明 用AMO-Bench研究token开销与算力缩放 AMO-Bench适合作为排行榜与压力测试 AMO-Bench题量仅五十题统计局限 AMO-Bench题目偏高中奥数风格说明 AMO-Bench对开放式推理覆盖不足提醒 AMO-Bench极端输出下可能评分误判 使用AMO-Bench前需确认License条款 AMO-Bench可作为数学微调高质信号 更推荐将AMO-Bench保留为测试集 AMO-Bench结合LongCat生态评测流程 AMO-Bench公开结果排行榜解读 如何将AMO-Bench加入现有评测流水线 AMO-Bench面向Thinking模式模型优势 AMO-Bench对符号推理能力要求极高 AMO-Bench支持数值与表达式鲁棒比对 AMO-Bench人类CoT可用于监督微调 AMO-Bench帮助研究复杂推理错误类型 AMO-Bench适合前沿大模型极限挑战 AMO-Bench在数学研究社区的潜在价值 AMO-Bench为竞赛级推理提供标准 AMO-Bench题集安装配置常见问题 在企业内用AMO-Bench评估模型可行性 AMO-Bench适合作为论文评测基准之一 AMO-Bench未来扩展题量与难度展望 AMO-Bench链接与官方项目地址说明

推荐工具

更多