Am 3. November 2025 veröffentlichte OpenAI IndQA, einen neuen Benchmark zur Bewertung des Verständnisses und der Argumentationsfähigkeit von KI-Systemen in indischen Sprachen und Kulturen. Laut offizieller Stellungnahme weisen bestehende mehrsprachige Assessments (wie MMMLU und MGSM) häufig eine Häufung hoher Punktzahlen auf und konzentrieren sich stark auf Übersetzungen oder Multiple-Choice-Fragen, wodurch das Verständnis realer kultureller und kontextueller Gegebenheiten vernachlässigt wird. IndQA hingegen umfasst Fragen, die von lokalen Experten in den jeweiligen Muttersprachen verfasst wurden und zehn Bereiche abdecken: Architektur, Literatur und Sprache, Recht und Ethik, Religion und Spiritualität, Sport und Freizeit sowie Alltag und Ernährung. Insgesamt bietet IndQA 2.278 Fragen in zwölf Sprachen (einschließlich Hinglish) mit englischen Übersetzungen zum Vergleich. Jede Frage enthält eine Bewertungsmatrix und eine ideale Antwort. Das System bewertet die einzelnen Aufgaben anhand dieser Matrix und ähnelt damit offenen Frage-Antwort- und Essay-Assessments.
Bei seiner Entwicklung arbeitete OpenAI mit 261 Fachexperten in Indien zusammen und nutzte ein „Adversarial Screening“-Verfahren: Nur Fragen, die die meisten der damals leistungsstarken Modelle (GPT-40, OpenAI 03, GPT-4.5 und GPT-5, das nach seiner Veröffentlichung erneut getestet wurde) nicht erfüllten, wurden beibehalten, um Verbesserungspotenzial zu gewährleisten. Die offizielle Website präsentiert nach Sprache und Fachgebiet aufgeschlüsselte Vergleiche und behauptet, dass sich die Modelle im Laufe der Zeit deutlich verbessert haben. Allerdings lassen sich sprachübergreifende Ergebnisse nicht direkt vergleichen, und das Adversarial Screening kann zu Verwirrung hinsichtlich der Modelle selbst führen. Die Methoden zur Veröffentlichung und zum Download der offiziellen Daten sind nicht klar definiert; derzeit werden sie hauptsächlich für interne und externe Benchmark-Demonstrationen verwendet, wobei geplant ist, diesen Ansatz zukünftig auf andere Regionen und Sprachen auszuweiten.
Häufig gestellte Fragen
F: Worin unterscheidet sich IndQA von früheren mehrsprachigen Benchmarks?
A: Der Schwerpunkt liegt auf dem Verständnis der lokalen Kultur und des Kontextes, auf offenen Antworten und detaillierten Bewertungskriterien, nicht auf einfachen Übersetzungs-/Multiple-Choice-Fragen; die Fragen sind Originalwerke lokaler Experten und wurden von Fachkollegen geprüft.
F: Welche Sprachen und Fachgebiete werden abgedeckt, und welchen Umfang haben die Daten?
A: Es gibt 2.278 Fragen in 12 Sprachen (darunter Bengali, Hindi, Tamil, Telugu, Gujarati, Kannada, Malayalam, Marathi, Odia, Punjabi, Hinglish und Englisch), die 10 kulturbezogene Bereiche abdecken.
F: Wie werden die Punkte vergeben?
A: Jeder Frage ist eine gewichtete Bewertungsregel beigefügt. Die Antwort des Modells wird vom Prüfer daraufhin überprüft, ob sie die Kernpunkte erfüllt, und die Endpunktzahl wird berechnet, was der menschlichen Bewertung näher kommt.
F: Ist es öffentlich zum Download verfügbar oder kann es für Chartvergleiche verwendet werden?
A: Die offizielle Website beschreibt nicht eindeutig, wie die vollständigen Daten zum Download bereitgestellt und eine einheitliche Rangliste erstellt werden können. Außerdem weist die Website darauf hin, dass sich die Frageformate je nach Sprache unterscheiden und die Ergebnisse verschiedener Sprachen daher nicht direkt vergleichbar sind. Es ist sinnvoller, die zeitliche Entwicklung innerhalb derselben Modellfamilie zu verfolgen.
F: Warum IndQA?
A: OpenAI gibt an, dass etwa 80 % der Bevölkerung nicht Englisch als Muttersprache sprechen und dass bestehende nicht-englischsprachige Beurteilungen nicht ausreichen, um die tatsächlichen Fähigkeiten zu messen; Indien ist sowohl ein mehrsprachiges Land als auch der zweitgrößte Markt für ChatGPT, daher werden wir mit dem indischen Szenario beginnen.