AMO-Bench题目更适合大型通用模型

找到 1 篇相关文章

AMO-Bench 发布：面向 IMO 级数学竞赛的大模型推理基准

一、摘要 AMO-Bench 是美团 LongCat 团队推出的高级数学推理基准，聚焦于国际数学奥林匹克（IMO）级别乃至更高难度的竞赛题。基准由 50 道全新人类专家设计题目构成，通过自动评分与人工链式思维（CoT）标注，系统评测大模型在高难度数理推理上的真实上限。当前公开结果显示，Kimi-k2...

Ai开源 • Admin • 2025/11/20

117

AMO-Bench题目更适合大型通用模型

AMO-Bench 发布：面向 IMO 级数学竞赛的大模型推理基准

推荐工具

提交AI工具

请确认提交信息