AMO-Bench 发布:面向 IMO 级数学竞赛的大模型推理基准 一、摘要 AMO-Bench 是美团 LongCat 团队推出的高级数学推理基准,聚焦于国际数学奥林匹克(IMO)级别乃至更高难度的竞赛题。基准由 50 道全新人类专家设计题目构成,通过自动评分与人工链式思维(CoT)标注,系统评测大模型在高难度数理推理上的真实上限。当前公开结果显示,Kimi-k2... Ai开源 • Admin • 2025/11/20 105