2025年11月3日、OpenAIはインドの言語と文化におけるAIシステムの理解と推論能力を評価するための新たなベンチマーク「IndQA」をリリースしました。公式声明によると、既存の多言語評価(MMMLUやMGSMなど)は「高得点のクラスタリング」傾向があり、翻訳や多肢選択問題に重点が置かれており、現実世界の文化や文脈の理解を反映していないとのことです。そのため、IndQAは、建築設計、文学と言語、法律と倫理、宗教と精神性、スポーツとレジャー、日常生活と食事など10分野を網羅し、12言語(ヒンディー語を含む)で合計2,278問の設問で構成され、監査と比較のために英語訳も提供されています。各設問には「採点基準」と理想的な回答が含まれており、システムは各項目を基準に従って採点するため、自由回答形式の質疑応答や論証エッセイの評価に近いものとなっています。
OpenAIは開発にあたり、インドの261人のドメイン専門家と協力し、「敵対的スクリーニング」アプローチを採用しました。当時最も有力なモデル(GPT-4o、OpenAI o3、GPT-4.5、そして公開後に再テストされたGPT-5)のほとんどが基準を満たさなかった問題のみを残し、改善の余地を確保しました。公式サイトでは、言語とドメインごとに階層化された比較を掲載しており、時間の経過とともにモデルが大幅に改善されたと主張しています。しかし、言語間のスコアを直接比較することはできず、敵対的スクリーニングはモデル自体に混乱をもたらす可能性があります。公式データの公開およびダウンロード方法は明確に定義されておらず、現在は主に社内および社外のベンチマークデモンストレーションに使用されており、将来的には他の地域や言語にもこのアプローチを拡大する予定です。
よくある質問
Q: IndQA は以前の多言語ベンチマークとどう違うのですか?
A: 単純な翻訳や複数選択の質問ではなく、現地の文化と文脈の理解、自由回答、詳細な採点基準に重点が置かれています。質問は現地の専門家によるオリジナルの作品で、同僚によって審査されます。
Q: どのような言語と分野がカバーされており、データの規模はどのくらいですか?
A: 12の言語(ベンガル語、ヒンディー語、タミル語、テルグ語、グジャラート語、カンナダ語、マラヤーラム語、マラーティー語、オディア語、パンジャブ語、ヒングリッシュ、英語を含む)で2,278の質問があり、10の文化関連分野をカバーしています。
Q: スコアはどのように付与されますか?
A: 各問題には加重採点ルールが適用されます。モデルの回答は採点者が重要ポイントを満たしているかどうかを確認し、最終的なスコアが算出されます。これは人間による採点に近いものです。
Q: ダウンロード用に公開されていますか、またはチャートの比較に使用できますか?
A: 公式サイトでは、完全なデータをダウンロード可能にし、統一されたリーダーボードを確立するためのプロセスが明確に定義されていません。さらに、公式サイトでは、質問形式は言語によって異なるため、言語間のスコアを直接比較すべきではないと述べられています。同じモデルファミリーの時系列的な進捗状況を追跡する方が適切です。
Q: IndQA を行う理由は何ですか?
A: OpenAI によれば、人口の約 80% が英語を第一言語として話さず、既存の英語以外の評価では真の能力を測るのに不十分です。インドは多言語国家であり、ChatGPT にとって 2 番目に大きな市場でもあるため、インドのシナリオから始めます。