Retour à Informations sur l’IA
OpenAI lance IndQA, un benchmark d'évaluation du « contexte et du raisonnement » pour les langues et cultures indiennes.

OpenAI lance IndQA, un benchmark d'évaluation du « contexte et du raisonnement » pour les langues et cultures indiennes.

Informations sur l’IA Admin 81 vues

Le 3 novembre 2025, OpenAI a lancé IndQA, un nouveau référentiel pour évaluer la compréhension et le raisonnement des systèmes d'IA dans les langues et cultures indiennes. Selon la déclaration officielle, les évaluations multilingues existantes (telles que MMMLU et MGSM) ont tendance à présenter des « regroupements de scores élevés » et se concentrent fortement sur la traduction ou les questions à choix multiples, sans refléter la compréhension culturelle et contextuelle du monde réel. IndQA propose donc des questions rédigées dans les langues maternelles par des experts locaux, couvrant 10 domaines : architecture, littérature et langues, droit et éthique, religion et spiritualité, sports et loisirs, vie quotidienne et gastronomie. Au total, 2 278 questions sont posées dans 12 langues (dont le Hinglish), avec des traductions anglaises fournies à des fins d'audit et de comparaison. Chaque question est accompagnée d'une grille d'évaluation et d'une réponse idéale ; le système évalue chaque question selon cette grille, ce qui la rapproche des évaluations par questions ouvertes et des dissertations argumentatives.

Pour son développement, OpenAI a collaboré avec 261 experts du domaine en Inde et a employé une approche de « sélection par les adversaires » : seules les questions auxquelles la plupart des modèles performants de l’époque (GPT-4o, OpenAI o3, GPT-4.5 et GPT-5, ce dernier ayant été testé à nouveau après sa publication) n’avaient pas réussi à répondre aux critères ont été conservées, laissant ainsi une marge d’amélioration. Le site web officiel présente des comparaisons stratifiées par langue et domaine, faisant état d’une amélioration significative du modèle au fil du temps. Cependant, les scores interlinguistiques ne sont pas directement comparables, et la sélection par les adversaires peut introduire une confusion quant aux modèles eux-mêmes. Les modalités de publication et de téléchargement des données officielles ne sont pas clairement définies ; actuellement, elles sont principalement utilisées pour des démonstrations de performances internes et externes, avec des projets d’extension à d’autres régions et langues à l’avenir.

Foire aux questions

Q : En quoi IndQA diffère-t-il des précédents benchmarks multilingues ?

A : L'accent est mis sur la culture locale et la compréhension du contexte, les réponses ouvertes et les critères de notation détaillés, plutôt que sur de simples questions de traduction/à choix multiples ; les questions sont des œuvres originales d'experts locaux et sont examinées par des pairs.

Q : Quelles langues et quels domaines sont couverts, et quelle est l'échelle des données ?

A: Il y a 2 278 questions en 12 langues (dont le bengali, l'hindi, le tamoul, le télougou, le gujarati, le kannada, le malayalam, le marathi, l'odia, le punjabi, le hinglish et l'anglais), couvrant 10 domaines liés à la culture.

Q : Comment les notes sont-elles attribuées ?

A : Chaque question est assortie d'une règle de notation pondérée. La réponse du modèle est vérifiée par le correcteur afin de déterminer si elle respecte les critères essentiels, puis un score final est calculé, plus proche d'une notation humaine.

Q : Est-il disponible au téléchargement pour le public ou peut-il être utilisé pour la comparaison de graphiques ?

A : Le site web officiel ne précise pas clairement la procédure de mise à disposition des données complètes pour le téléchargement ni celle d'établissement d'un classement unifié. De plus, il indique que le format des questions diffère selon les langues et que les scores obtenus dans différentes langues ne doivent pas être comparés directement. Il est plus pertinent de suivre l'évolution des séries temporelles des modèles d'une même famille.

Q : Pourquoi IndQA ?

A : OpenAI indique qu'environ 80 % de la population n'a pas l'anglais comme langue principale et que les évaluations existantes en langues autres que l'anglais sont insuffisantes pour mesurer les véritables compétences ; l'Inde est à la fois un pays multilingue et le deuxième marché le plus important de ChatGPT, nous commencerons donc par le scénario indien.

Évaluation de la compréhension multilingue indienne IndQA Normes de questions et réponses ouvertes pour la culture locale Un système de notation détaillé mettant l'accent sur la compréhension du contexte Tests portant sur douze langues indiennes Un ensemble d'évaluation interdisciplinaire de 2278 questions Conception d'une banque de questions contenant du Hinglish Dix domaines, dont l'architecture, la littérature, le droit et la religion Les questions de sélection contradictoires ne retiennent que des exemples de difficulté. Questions et avis originaux d'experts en langue maternelle Des règles de notation plus proches de celles utilisées par les correcteurs humains Positionnement différencié par rapport à MMMUMGSM Réduire l'impact des biais dans les questions à choix multiples de traduction Les scores obtenus dans différentes langues ne peuvent pas être comparés directement. Évolution temporelle du suivi des modèles homologues La représentation de la famille GPT dans les langues indiennes Stratégie de fidélisation des mannequins performants qui n'atteignent pas l'objectif du titre Évaluation des compétences en matière de réponses ouvertes et de dissertation argumentative Test de raisonnement sur le bon sens culturel et le contexte réel OpenAI publie un jeu de données de référence pour les scénarios indiens. Les formats de questions localisés renforcent le réalisme et la difficulté. Collaboration d'experts pour développer et contrer le processus de dépistage La méthode de notation de l'évaluateur vérifie chaque point individuellement. Le soutien à la traduction de l'anglais vers l'anglais facilite l'audit et la révision. Mesure des compétences des utilisateurs non anglophones Le deuxième plus important moteur de recherche en arrière-plan de ChatGPT Performance réaliste de la compréhension et du raisonnement multilingues Le processus de téléchargement et de classement des données n'est pas clairement défini. Tableaux comparatifs adaptés à un affichage interne et externe La diversité des formats de questions évite les raccourcis de traduction littérale. Évaluation de la sensibilité culturelle et du contexte de l'étiquette Couverture des connaissances régionales à longue traîne et des expressions courantes Comparaison des grands modèles généraux et des systèmes spécialisés Le score final est calculé en additionnant les éléments pondérés de la grille d'évaluation. Explication du nombre d'experts du domaine et de l'envergure du projet Discussion sur l'équité de l'évaluation et la cohérence interlinguistique Expansion future à d'autres régions et langues Contrôle de la qualité par des experts locaux et des évaluateurs pairs Répondre à des questions basées sur des scénarios concrets est supérieur à répondre à des questions de traduction synthétique. identification et évaluation de la pragmatique complexe et de l'ironie métaphorique Problèmes intégrant la récupération des connaissances et le raisonnement Considérations relatives à l'éthique des données et à la transparence de la banque de questions Les questions portent sur la vie quotidienne et les habitudes alimentaires. Questions et réponses contextualisées sur les frontières du droit et de l'éthique Test de compréhension de la rhétorique littéraire et des dialectes à l'oral Contexte culturel lié au sport et aux loisirs La compréhension par le modèle des concepts spécifiques à la région Mécanisme de reproductibilité et d'audit des résultats d'évaluation Améliorer l'adaptabilité au marché multilingue indien Rôle complémentaire avec les référentiels multilingues universels Mesurer l'utilisabilité réelle dans le contexte local

Outils Recommandés

Plus