Le 3 novembre 2025, OpenAI a lancé IndQA, un nouveau référentiel pour évaluer la compréhension et le raisonnement des systèmes d'IA dans les langues et cultures indiennes. Selon la déclaration officielle, les évaluations multilingues existantes (telles que MMMLU et MGSM) ont tendance à présenter des « regroupements de scores élevés » et se concentrent fortement sur la traduction ou les questions à choix multiples, sans refléter la compréhension culturelle et contextuelle du monde réel. IndQA propose donc des questions rédigées dans les langues maternelles par des experts locaux, couvrant 10 domaines : architecture, littérature et langues, droit et éthique, religion et spiritualité, sports et loisirs, vie quotidienne et gastronomie. Au total, 2 278 questions sont posées dans 12 langues (dont le Hinglish), avec des traductions anglaises fournies à des fins d'audit et de comparaison. Chaque question est accompagnée d'une grille d'évaluation et d'une réponse idéale ; le système évalue chaque question selon cette grille, ce qui la rapproche des évaluations par questions ouvertes et des dissertations argumentatives.
Pour son développement, OpenAI a collaboré avec 261 experts du domaine en Inde et a employé une approche de « sélection par les adversaires » : seules les questions auxquelles la plupart des modèles performants de l’époque (GPT-4o, OpenAI o3, GPT-4.5 et GPT-5, ce dernier ayant été testé à nouveau après sa publication) n’avaient pas réussi à répondre aux critères ont été conservées, laissant ainsi une marge d’amélioration. Le site web officiel présente des comparaisons stratifiées par langue et domaine, faisant état d’une amélioration significative du modèle au fil du temps. Cependant, les scores interlinguistiques ne sont pas directement comparables, et la sélection par les adversaires peut introduire une confusion quant aux modèles eux-mêmes. Les modalités de publication et de téléchargement des données officielles ne sont pas clairement définies ; actuellement, elles sont principalement utilisées pour des démonstrations de performances internes et externes, avec des projets d’extension à d’autres régions et langues à l’avenir.
Foire aux questions
Q : En quoi IndQA diffère-t-il des précédents benchmarks multilingues ?
A : L'accent est mis sur la culture locale et la compréhension du contexte, les réponses ouvertes et les critères de notation détaillés, plutôt que sur de simples questions de traduction/à choix multiples ; les questions sont des œuvres originales d'experts locaux et sont examinées par des pairs.
Q : Quelles langues et quels domaines sont couverts, et quelle est l'échelle des données ?
A: Il y a 2 278 questions en 12 langues (dont le bengali, l'hindi, le tamoul, le télougou, le gujarati, le kannada, le malayalam, le marathi, l'odia, le punjabi, le hinglish et l'anglais), couvrant 10 domaines liés à la culture.
Q : Comment les notes sont-elles attribuées ?
A : Chaque question est assortie d'une règle de notation pondérée. La réponse du modèle est vérifiée par le correcteur afin de déterminer si elle respecte les critères essentiels, puis un score final est calculé, plus proche d'une notation humaine.
Q : Est-il disponible au téléchargement pour le public ou peut-il être utilisé pour la comparaison de graphiques ?
A : Le site web officiel ne précise pas clairement la procédure de mise à disposition des données complètes pour le téléchargement ni celle d'établissement d'un classement unifié. De plus, il indique que le format des questions diffère selon les langues et que les scores obtenus dans différentes langues ne doivent pas être comparés directement. Il est plus pertinent de suivre l'évolution des séries temporelles des modèles d'une même famille.
Q : Pourquoi IndQA ?
A : OpenAI indique qu'environ 80 % de la population n'a pas l'anglais comme langue principale et que les évaluations existantes en langues autres que l'anglais sont insuffisantes pour mesurer les véritables compétences ; l'Inde est à la fois un pays multilingue et le deuxième marché le plus important de ChatGPT, nous commencerons donc par le scénario indien.