OpenAI 于 2025 年 11 月 3 日发布 IndQA,这是一个用于评估AI系统在印度语言与文化上的理解与推理的新基准。官方称,现有多语种评测(如 MMMLU、MGSM)趋于“高分聚集”,且多偏翻译或选择题,难以反映真实使用中的文化与语境理解。IndQA 因此由本土专家以母语撰写问题,覆盖建筑设计、文学语言、法律伦理、宗教与精神、体育休闲、日常生活与饮食等 10 个领域,总计 2,278 个问题,涉及 12 种语言(含 Hinglish),并配有英译以便审计与对照。每道题附带“评分细则”(rubric)与理想答案,系统以细则逐项判分,更贴近开放问答与议论文式评测。
在构建上,OpenAI与 261 位印度领域专家协作,并采用“对抗筛题”:仅保留当时多数强模型(GPT-4o、OpenAI o3、GPT-4.5,以及公开发布后补测的 GPT-5)未能达标的问题,以保证进步空间。官网展示了按语言与领域分层的对比,称模型随时间显著进步,但跨语言分数不可直接横比,且对抗筛题可能对自家模型存在混淆因素。官方未明确完整数据开放与下载方式,当前更多用于内部与对外基准展示,未来计划以此思路扩展到其他地区与语言。
常见问题
Q:IndQA 与以往多语种基准有何不同?
A:强调本地文化与语境理解、开放回答与细则评分,而非单纯翻译/选择题;问题由本土专家原创并经同行审阅。
Q:覆盖了哪些语言与领域、数据规模多大?
A:共 2,278 个问题,12 种语言(含 Bengali、Hindi、Tamil、Telugu、Gujarati、Kannada、Malayalam、Marathi、Odia、Punjabi、Hinglish 与英语),覆盖 10 个文化相关领域。
Q:如何打分?
A:每题配有加权评分细则,模型答案由评分器逐条核对是否满足要点,最终汇总得分,更接近人工阅卷。
Q:是否公开下载或可用于榜单对比?
A:官网未明确完整数据的开放下载与统一榜单流程;且官方提示不同语言题面不同,跨语言分数不宜直接比较,更适合跟踪同一家族模型的时间序列进步。
Q:为什么要做 IndQA?
A:OpenAI称约八成人口的主要语言并非英语,现有非英语评测不足以衡量真实能力;印度既是多语言大国,也是 ChatGPT 第二大市场,因此先从印度场景起步。