返回AI资讯
OpenAI 推出 IndQA 基准:面向印度语言与文化的“情境与推理”评测集

OpenAI 推出 IndQA 基准:面向印度语言与文化的“情境与推理”评测集

AI资讯 Admin 81 次浏览

OpenAI 于 2025 年 11 月 3 日发布 IndQA,这是一个用于评估AI系统在印度语言与文化上的理解与推理的新基准。官方称,现有多语种评测(如 MMMLU、MGSM)趋于“高分聚集”,且多偏翻译或选择题,难以反映真实使用中的文化与语境理解。IndQA 因此由本土专家以母语撰写问题,覆盖建筑设计、文学语言、法律伦理、宗教与精神、体育休闲、日常生活与饮食等 10 个领域,总计 2,278 个问题,涉及 12 种语言(含 Hinglish),并配有英译以便审计与对照。每道题附带“评分细则”(rubric)与理想答案,系统以细则逐项判分,更贴近开放问答与议论文式评测。

在构建上,OpenAI与 261 位印度领域专家协作,并采用“对抗筛题”:仅保留当时多数强模型(GPT-4o、OpenAI o3、GPT-4.5,以及公开发布后补测的 GPT-5)未能达标的问题,以保证进步空间。官网展示了按语言与领域分层的对比,称模型随时间显著进步,但跨语言分数不可直接横比,且对抗筛题可能对自家模型存在混淆因素。官方未明确完整数据开放与下载方式,当前更多用于内部与对外基准展示,未来计划以此思路扩展到其他地区与语言。

常见问题

Q:IndQA 与以往多语种基准有何不同?

A:强调本地文化与语境理解、开放回答与细则评分,而非单纯翻译/选择题;问题由本土专家原创并经同行审阅。

Q:覆盖了哪些语言与领域、数据规模多大?

A:共 2,278 个问题,12 种语言(含 Bengali、Hindi、Tamil、Telugu、Gujarati、Kannada、Malayalam、Marathi、Odia、Punjabi、Hinglish 与英语),覆盖 10 个文化相关领域。

Q:如何打分?

A:每题配有加权评分细则,模型答案由评分器逐条核对是否满足要点,最终汇总得分,更接近人工阅卷。

Q:是否公开下载或可用于榜单对比?

A:官网未明确完整数据的开放下载与统一榜单流程;且官方提示不同语言题面不同,跨语言分数不宜直接比较,更适合跟踪同一家族模型的时间序列进步。

Q:为什么要做 IndQA?

A:OpenAI称约八成人口的主要语言并非英语,现有非英语评测不足以衡量真实能力;印度既是多语言大国,也是 ChatGPT 第二大市场,因此先从印度场景起步。

IndQA印度多语言理解评测 面向本土文化的开放问答基准 强调语境理解的细则评分体系 覆盖十二种印度语言测试 2278道题的跨领域评测集 含Hinglish混合语的题库设计 建筑文学法律宗教等十领域 对抗筛题仅保留难度样本 专家母语原创提问与审阅 更接近人工阅卷的细则打分 与MMMLUMGSM差异化定位 减少翻译选择题的偏差影响 跨语言分数不可直接横比 跟踪同系模型的时间序列进步 GPT家族在印度语言的表现 强模型未达标题目的保留策略 开放回答与议论文式能力评估 文化常识与现实语境推理测试 OpenAI发布印度场景基准集 本地化题面提升真实性与难度 专家协作构建与对抗筛查流程 评测器逐项核对要点的打分法 支持英译对照便于审计复核 面向非英语用户的能力衡量 ChatGPT第二大市场背景动因 多语种理解与推理的真实性能 数据下载与榜单流程未明确 适合内部对外展示的对比图 题面多样避免直译路径捷径 文化敏感与礼俗语境的判断 长尾地域知识与常用表达覆盖 比较通用大模型与专向系统 以Rubric加权项汇总最终得分 领域专家数量与构建规模说明 评测公平性与跨语一致性讨论 未来扩展到其他地区与语言 本土专家与同行评审的质量控 真实场景问答优于合成翻译题 复杂语用与隐喻讽刺识别评估 知识检索与推理融合的题设 数据伦理与题库透明度考量 题目覆盖日常生活与饮食习俗 法律伦理边界的情境化问答 文学修辞与方言口语理解测试 体育与休闲相关的文化脉络题 模型对地区特有概念的掌握度 评测结果的可复现与审计机制 提升对印度多语市场的适配性 与通用多语基准的互补作用 以本土语境衡量真实可用性

推荐工具

更多