戻るAI情報
OpenAI は、インドの言語と文化のための「コンテキストと推論」評価セットである IndQA ベンチマークを開始しました。

OpenAI は、インドの言語と文化のための「コンテキストと推論」評価セットである IndQA ベンチマークを開始しました。

AI情報 Admin 81 回閲覧

2025年11月3日、OpenAIはインドの言語と文化におけるAIシステムの理解と推論能力を評価するための新たなベンチマーク「IndQA」をリリースしました。公式声明によると、既存の多言語評価(MMMLUやMGSMなど)は「高得点のクラスタリング」傾向があり、翻訳や多肢選択問題に重点が置かれており、現実世界の文化や文脈の理解を反映していないとのことです。そのため、IndQAは、建築設計、文学と言語、法律と倫理、宗教と精神性、スポーツとレジャー、日常生活と食事など10分野を網羅し、12言語(ヒンディー語を含む)で合計2,278問の設問で構成され、監査と比較のために英語訳も提供されています。各設問には「採点基準」と理想的な回答が含まれており、システムは各項目を基準に従って採点するため、自由回答形式の質疑応答や論証エッセイの評価に近いものとなっています。

OpenAIは開発にあたり、インドの261人のドメイン専門家と協力し、「敵対的スクリーニング」アプローチを採用しました。当時最も有力なモデル(GPT-4o、OpenAI o3、GPT-4.5、そして公開後に再テストされたGPT-5)のほとんどが基準を満たさなかった問題のみを残し、改善の余地を確保しました。公式サイトでは、言語とドメインごとに階層化された比較を掲載しており、時間の経過とともにモデルが大幅に改善されたと主張しています。しかし、言語間のスコアを直接比較することはできず、敵対的スクリーニングはモデル自体に混乱をもたらす可能性があります。公式データの公開およびダウンロード方法は明確に定義されておらず、現在は主に社内および社外のベンチマークデモンストレーションに使用されており、将来的には他の地域や言語にもこのアプローチを拡大する予定です。

よくある質問

Q: IndQA は以前の多言語ベンチマークとどう違うのですか?

A: 単純な翻訳や複数選択の質問ではなく、現地の文化と文脈の理解、自由回答、詳細な採点基準に重点が置かれています。質問は現地の専門家によるオリジナルの作品で、同僚によって審査されます。

Q: どのような言語と分野がカバーされており、データの規模はどのくらいですか?

A: 12の言語(ベンガル語、ヒンディー語、タミル語、テルグ語、グジャラート語、カンナダ語、マラヤーラム語、マラーティー語、オディア語、パンジャブ語、ヒングリッシュ、英語を含む)で2,278の質問があり、10の文化関連分野をカバーしています。

Q: スコアはどのように付与されますか?

A: 各問題には加重採点ルールが適用されます。モデルの回答は採点者が重要ポイントを満たしているかどうかを確認し、最終的なスコアが算出されます。これは人間による採点に近いものです。

Q: ダウンロード用に公開されていますか、またはチャートの比較に使用できますか?

A: 公式サイトでは、完全なデータをダウンロード可能にし、統一されたリーダーボードを確立するためのプロセスが明確に定義されていません。さらに、公式サイトでは、質問形式は言語によって異なるため、言語間のスコアを直接比較すべきではないと述べられています。同じモデルファミリーの時系列的な進捗状況を追跡する方が適切です。

Q: IndQA を行う理由は何ですか?

A: OpenAI によれば、人口の約 80% が英語を第一言語として話さず、既存の英語以外の評価では真の能力を測るのに不十分です。インドは多言語国家であり、ChatGPT にとって 2 番目に大きな市場でもあるため、インドのシナリオから始めます。

IndQA インド多言語理解力評価 地域文化に関するオープンQ&A基準 文脈理解を重視した詳細な採点システム 12のインド言語をカバーするテスト 2278の質問からなる学際的な評価セット ヒンディー語を含む質問バンクのデザイン 建築、文学、法律、宗教を含む10の分野 敵対的スクリーニング質問では、難易度のサンプルのみが保持されます。 専門家によるネイティブ言語のオリジナルの質問とレビュー 人間の採点者が使用するものに近い採点ルール MMMUMGSMとの差別化ポジショニング 翻訳多肢選択問題におけるバイアスの影響を軽減する 言語間のスコアを直接比較することはできません。 相同モデル追跡の時系列進捗 GPTファミリーのインド言語における表現 タイトル目標を達成できなかった優秀なモデルの保持戦略 自由記述式および論述エッセイ形式の能力評価 文化的常識と現実世界の文脈推論テスト OpenAI がインドのシナリオのベンチマーク データセットをリリースしました。 ローカライズされた質問形式により、現実感と難易度が向上します。 スクリーニングプロセスの開発と対策のための専門家の協力 評価者の採点方法は各ポイントを個別にチェックします。 英語から英語への翻訳をサポートすることで、監査とレビューが容易になります。 英語を話さないユーザーのための能力測定 ChatGPTの2番目に大きな市場背景の推進力 多言語理解と推論の現実的なパフォーマンス データのダウンロードとランキングのプロセスが明確に定義されていません。 内部および外部表示に適した比較チャート 多様な質問形式により、直訳の省略を避ける 文化的感受性とエチケットの文脈の判断 ロングテールの地域知識と一般的な表現のカバー 一般的な大規模モデルと特殊システムの比較 最終スコアは、ルーブリック重み付けを使用して合計されます。 ドメインエキスパートの数とプロジェクトの規模の説明 評価の公平性と言語間の一貫性に関する議論 将来的には他の地域や言語への拡大も予定 現地の専門家と査読者による品質管理 現実世界のシナリオに基づく質問応答は、合成翻訳による質問よりも優れています。 複雑な語用論と比喩的皮肉の識別と評価 知識検索と推論を統合する問題 データ倫理と質問バンクの透明性に関する考慮事項 質問は日常生活や食習慣に関するものです。 法と倫理の境界に関する文脈に沿った質問と回答 文学修辞学と方言の話し言葉理解テスト スポーツとレジャーに関連する文化的背景 地域特有の概念に対するモデルの理解 評価結果の再現性と監査メカニズム インドの多言語市場への適応性を向上させる 普遍的な多言語ベンチマークとの補完的な役割 ローカルコンテキストでの実際のユーザビリティを測定する

関連記事

サム・アルトマン氏は「Codex は OpenAI の内部開発を変えた」と述べ、新しいモデルの今後のリリースを予告しました。

サム・アルトマン氏は「Codex は OpenAI の内部開発を変えた」と述べ、新しいモデルの今後のリリースを予告しました。

Sam Altman氏は最近、Xフォーラムで、Codexがここ数ヶ月で「OpenAIの開発方法を変えた」と述べ、チームが「素晴らしい次世代モデル」を次々とリリースしようとしていると語りました。この発言...

Lion Accountability Browser: 親と青少年が健全なオンライン習慣を身に付けるのを支援する AI 搭載の安全なブラウザ。

Lion Accountability Browser: 親と青少年が健全なオンライン習慣を身に付けるのを支援する AI 搭載の安全なブラウザ。

I. 基本情報 Lion Accountability Browserは、プライバシーを最優先とするAI搭載のセキュリティブラウザです。コンテンツ認識、ペアレンタルコントロール、アカウンタビリティを中...

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

2026年6月1日、IT HomeはGSMAが本日、2026年6月24日から25日まで上海MWCでテーマイベントとして「ヒューマノイドロボットペナルティシュートアウト」を開催することを正式に発表したと...

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

2026年6月1日時点でも、OpenAIヘルプセンターのChatGPTリリースノートは最新の更新として表示されています。5月29日のエントリーには次のように記載されています:Codexは現在、Code...

おすすめツール

もっと見る