OpenAI 推出 IndQA 基准：面向印度语言与文化的“情境与推理”评测集

AI资讯 • Admin • 2025/11/5 • 96 次浏览

OpenAI 于 2025 年 11 月 3 日发布 IndQA，这是一个用于评估AI系统在印度语言与文化上的理解与推理的新基准。官方称，现有多语种评测（如 MMMLU、MGSM）趋于“高分聚集”，且多偏翻译或选择题，难以反映真实使用中的文化与语境理解。IndQA 因此由本土专家以母语撰写问题，覆盖建筑设计、文学语言、法律伦理、宗教与精神、体育休闲、日常生活与饮食等 10 个领域，总计 2,278 个问题，涉及 12 种语言（含 Hinglish），并配有英译以便审计与对照。每道题附带“评分细则”（rubric）与理想答案，系统以细则逐项判分，更贴近开放问答与议论文式评测。

在构建上，OpenAI与 261 位印度领域专家协作，并采用“对抗筛题”：仅保留当时多数强模型（GPT-4o、OpenAI o3、GPT-4.5，以及公开发布后补测的 GPT-5）未能达标的问题，以保证进步空间。官网展示了按语言与领域分层的对比，称模型随时间显著进步，但跨语言分数不可直接横比，且对抗筛题可能对自家模型存在混淆因素。官方未明确完整数据开放与下载方式，当前更多用于内部与对外基准展示，未来计划以此思路扩展到其他地区与语言。

常见问题

Q：IndQA 与以往多语种基准有何不同？

A：强调本地文化与语境理解、开放回答与细则评分，而非单纯翻译/选择题；问题由本土专家原创并经同行审阅。

Q：覆盖了哪些语言与领域、数据规模多大？

A：共 2,278 个问题，12 种语言（含 Bengali、Hindi、Tamil、Telugu、Gujarati、Kannada、Malayalam、Marathi、Odia、Punjabi、Hinglish 与英语），覆盖 10 个文化相关领域。

Q：如何打分？

A：每题配有加权评分细则，模型答案由评分器逐条核对是否满足要点，最终汇总得分，更接近人工阅卷。

Q：是否公开下载或可用于榜单对比？

A：官网未明确完整数据的开放下载与统一榜单流程；且官方提示不同语言题面不同，跨语言分数不宜直接比较，更适合跟踪同一家族模型的时间序列进步。

Q：为什么要做 IndQA？

A：OpenAI称约八成人口的主要语言并非英语，现有非英语评测不足以衡量真实能力；印度既是多语言大国，也是 ChatGPT 第二大市场，因此先从印度场景起步。

OpenAI 推出 IndQA 基准：面向印度语言与文化的“情境与推理”评测集

相关文章

Sam Altman称“Codex已改变OpenAI内部开发”，并预告将有新模型推出

Lion Accountability Browser：AI安全浏览器，助力家长与青少年建立健康上网习惯

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

OpenAI 推出 IndQA 基准：面向印度语言与文化的“情境与推理”评测集

相关文章

Sam Altman称“Codex已改变OpenAI内部开发”，并预告将有新模型推出

Lion Accountability Browser：AI安全浏览器，助力家长与青少年建立健康上网习惯

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

提交AI工具

请确认提交信息