2025년 11월 3일, OpenAI는 인도 언어와 문화에 대한 AI 시스템의 이해와 추론 능력을 평가하는 새로운 벤치마크인 IndQA를 출시했습니다. 공식 성명에 따르면, 기존의 다국어 평가(예: MMMLU, MGSM)는 "점수가 높은 군집화" 경향이 있으며, 번역이나 객관식 문제에 지나치게 집중되어 실제 문화 및 맥락적 이해를 제대로 반영하지 못한다고 합니다. 따라서 IndQA는 건축 설계, 문학 및 언어, 법 및 윤리, 종교 및 영성, 스포츠 및 여가, 일상생활 및 음식 등 10개 분야를 포괄하는 현지 전문가가 모국어로 작성한 문제를 제공하며, 총 12개 언어(힌글리시 포함)로 구성된 2,278개의 문제를 포함하고 있으며, 검토 및 비교를 위해 영어 번역본이 제공됩니다. 각 문제에는 "채점 기준표"와 이상적인 답이 포함되어 있으며, 시스템은 이 기준표에 따라 각 항목의 점수를 매겨 주관식 질의응답 및 논증형 에세이 평가에 더 가깝습니다.
OpenAI는 개발 과정에서 인도 내 261명의 도메인 전문가와 협력하여 "적대적 스크리닝" 방식을 채택했습니다. 당시 대부분의 강력한 모델(GPT-4o, OpenAI o3, GPT-4.5, 그리고 공개 후 재테스트된 GPT-5)이 기준을 충족하지 못한 질문만 유지하여 개선의 여지를 확보했습니다. 공식 웹사이트는 언어 및 도메인별로 계층화된 비교 결과를 제공하며, 시간 경과에 따라 모델이 크게 향상되었다고 주장합니다. 그러나 언어 간 점수를 직접 비교할 수 없으며, 적대적 스크리닝은 모델 자체에 혼란을 야기할 수 있습니다. 공식 데이터 공개 및 다운로드 방식은 명확하게 정의되어 있지 않습니다. 현재는 주로 내부 및 외부 벤치마크 시연에 사용되고 있으며, 향후 다른 지역 및 언어로도 이 방식을 확장할 계획입니다.
자주 묻는 질문
질문: IndQA는 기존의 다국어 벤치마크와 어떻게 다릅니까?
A: 단순한 번역/객관식 문제보다는 현지 문화와 맥락적 이해, 개방형 답변, 세부적인 채점 기준에 중점을 둡니다. 문제는 현지 전문가가 직접 작성한 독창적인 작품이며 동료의 검토를 거칩니다.
Q: 어떤 언어와 분야가 다루어지고, 데이터 규모는 어느 정도인가요?
A: 12개 언어(벵골어, 힌디어, 타밀어, 텔루구어, 구자라트어, 칸나다어, 말라얄람어, 마라티어, 오디아어, 펀자브어, 힝글리시, 영어 등)로 구성된 2,278개의 질문이 있으며, 10개의 문화 관련 분야를 포괄합니다.
질문: 점수는 어떻게 주어지나요?
A: 각 문제에는 가중치가 적용된 채점 규칙이 적용됩니다. 채점자는 모델의 답변이 핵심 요점을 충족하는지 확인하고, 최종 점수를 계산하는데, 이는 사람이 채점하는 방식과 유사합니다.
질문: 공개적으로 다운로드할 수 있나요? 아니면 차트 비교에 사용할 수 있나요?
A: 공식 웹사이트에는 전체 데이터를 다운로드할 수 있도록 제공하고 통합 순위표를 구축하는 절차가 명확하게 정의되어 있지 않습니다. 또한, 공식 웹사이트는 언어별로 문제 형식이 다르므로 언어별 점수를 직접 비교해서는 안 된다고 명시하고 있습니다. 동일한 모델군의 시계열 진행 상황을 추적하는 것이 더 적절합니다.
질문: IndQA를 하는 이유는 무엇인가요?
A: OpenAI에 따르면 인구의 약 80%가 영어를 모국어로 사용하지 않으며, 기존의 비영어 평가는 실제 능력을 측정하기에 불충분합니다. 인도는 다국어 국가이자 ChatGPT의 두 번째로 큰 시장이므로 인도 시나리오부터 시작하겠습니다.