Zurück zu KI ist Open Source
Ein umfassender Blick auf UNO-Bench: Ein offener Benchmark zur einheitlichen Bewertung multimodalen Verstehens und Denkens

Ein umfassender Blick auf UNO-Bench: Ein offener Benchmark zur einheitlichen Bewertung multimodalen Verstehens und Denkens

KI ist Open Source Admin 95 Aufrufe

I. Zusammenfassung

UNO-Bench ist ein Open-Source-Benchmark zur einheitlichen Bewertung von „Einzelmodell-/Vollmodell“-Fragen, der sowohl Wahrnehmungs- als auch Denkprozesse abdeckt. Er bietet Fragen zu realen chinesischen Szenarien und mehrstufige offene Frage-Antwort-Fragen (MO). Die Daten und Werkzeuge legen Wert auf hohe Qualität und menschliche Expertise bei der Entwicklung und verfügen über ein allgemeines Bewertungsmodell für die automatisierte Auswertung.

II. Kernmerkmale

  1. Einheitliches Fähigkeitsrahmenwerk: 44 Aufgabentypen, 5 Modalitätskombinationen, mit dem gleichen Indikatorkaliber für Aufgaben mit einer einzigen Modalität und Aufgaben mit mehreren Modalitäten.
  2. Hohe Qualität und Lösbarkeit: 1250 vollmodale Datenpunkte, von Menschen überprüfte Konstruktion, 98 % modalitätsübergreifend lösbar.
  3. Effizienzoptimierung: Die automatische Komprimierung von 18 öffentlichen Benchmarks beschleunigt die Auswertung um ca. 90 % und verbessert die Konsistenz um ca. 98 %.
  4. Realistischere Fragetypen: Um auch komplexe Gedankengänge abzudecken, wurden mehrstufige, offene Fragen und Antworten hinzugefügt.
  5. Allgemeine Bewertung: Unterstützt 6 Fragetypen mit einer Übereinstimmung von ca. 95 % bei der Annotation in OOD-Szenarien.
  6. Wichtigste Erkenntnisse: Starke Modelle weisen eine „Potenzgesetz-Synergie“ auf (die Fähigkeiten nehmen mit den Modalkombinationen multiplikativ zu).

III. Installation

1. Dataset: datasets.load_dataset("meituan-longcat/UNO-Bench") Ruft die Standard-Shards ab.

  1. Quellcode und Dokumentation: Die README-Datei und Beispiele für Auswertungsskripte finden Sie im geklonten GitHub-Repository.
  2. Umgebung: Python/Transformers/Datasets. Eine Standardumgebung ist ausreichend. Installieren Sie die Abhängigkeiten gemäß den Anweisungen im Repository.

IV. Typische Anwendungsfälle

  1. Querschnittsbewertung des Modells: Vergleich der Unterschiede zwischen Einzelmodell und Gesamtmodell unter Verwendung einer einheitlichen Skala.
  2. Überprüfung chinesischer Szenarien: Wahrnehmungs- und Denkvermögen in realen/kulturellen/sozialen Kontexten.
  3. Analyse von Argumentationsketten: Verwenden Sie mehrstufige, offene Fragen, um Schwächen in langen Argumentationsketten zu diagnostizieren.
  4. RAG/Multimodales System: Validierung der Gesamtvorteile der Audio-, Bild- und Videofusion.

V. Ökologie und Wettbewerber

  1. Ökosystem: Bietet Datensätze, Ranglisten und wissenschaftliche Artikel; die Toolchain befindet sich in der Entwicklung.
  2. Konkurrenten: Im Vergleich zu visuellen/fachspezifischen Benchmarks wie MMBEC, MMMU und MathVista legt UNO-Bench Wert auf die „einheitliche Bewertung vom Einzelmodus bis zum Vollmodus“ und auf reale chinesische Szenarien; seine Komprimierungsmethode ermöglicht eine schnelle Ausrichtung mehrerer Benchmarks.

VI. Einschränkungen und Vorsichtsmaßnahmen

  1. Die Anwendbarkeit der automatischen Komprimierung muss für jede Aufgabe einzeln geprüft werden; für einige Teilaufgaben fehlen möglicherweise ausreichende Informationen.
  2. Das allgemeine Bewertungsmodell kann bei längeren Antworten/generativen Ausgaben noch Verzerrungen aufweisen, und es wird empfohlen, Beispiele manuell zu überprüfen.
  3. Derzeit liegt der Schwerpunkt auf chinesischsprachigen Szenarien, und wir sind weiterhin auf der Suche nach Kooperationen für mehrsprachige Erweiterungen und englische Versionen.
  4. Die „Potenzgesetz-Synergie“ ist eine empirische Entdeckung und muss bei der Übertragung auf neue Aufgaben erneut überprüft werden.

VII. Projektadresse

https://github.com/meituan-longcat/UNO-Bench

VIII. Häufig gestellte Fragen

F: Welche Modalitäten und Aufgaben deckt UNO-Bench ab?

A: Es umfasst Kombinationen aus Audio, Bildern und Video mit insgesamt 5 modalen Kombinationen und 44 Aufgabenkategorien, die sowohl die Wahrnehmungs- als auch die Denkdimension ansprechen.

F: Wie kann ich den UNO-Bench-Benchmark schnell ausführen?

A: Laden Sie Daten über Hugging Face und führen Sie Inferenz und Bewertung mithilfe von Beispielskripten aus dem Repository und einem allgemeinen Bewertungsmodell durch.

F: Wie stark beeinflusst die automatische Komprimierung die Zuverlässigkeit der Ergebnisse?

A: Die Übereinstimmung der Rangliste bleibt über 18 öffentlich verfügbare Benchmarks hinweg bei etwa 98 % erhalten, es wird jedoch weiterhin empfohlen, dies mit einer Stichprobenprüfung des ursprünglichen Datensatzes zu kombinieren.

F: Unterstützt es Englisch oder mehrere Sprachen?

A: Derzeit liegt der offizielle Schwerpunkt auf der chinesischen Sprachversion, und wir suchen Partner für die gemeinsame Entwicklung englischer und mehrsprachiger Versionen.

F: Gilt die Potenzgesetz-Kollaboration für alle Modelle?

A: Bei starken Modellen ist dies vor allem relevant; bei schwachen Modellen ähnelt es eher einem „Schwächste-Glied-Effekt“ und muss gesondert bewertet und bestätigt werden.

UNO-Bench Einheitliches Bewertungsframework für Einzel- und Vollmorsemodelle UNO-Bench Chinesischer Fragenkatalog für reale Szenarien – Konstruktion UNO-Bench Multi-Step Open Question Answering Link Evaluation UNO-Bench-Bewertung der Wahrnehmung und des Denkens in zwei Dimensionen Das universelle Bewertungsmodell UNO-Bench führt die Bewertung automatisch durch. UNO-Bench-Verifizierung der modalen Lösbarkeit (98 %) Automatisches Komprimierungsverfahren für öffentliche UNO-Bench-Benchmarks UNO-Bench-Benchmark-Beschleunigungsoptimierungslösung (ca. 90 % Geschwindigkeitssteigerung) Die Konsistenz der UNO-Bench-Rangliste wurde mit ca. 98 % bestätigt. UNO-Bench bietet eine umfassende Evaluierung, die 44 Aufgabenkategorien abdeckt. UNO-Bench fünf Modalkombinationen mit einheitlichem Kaliber UNO-Bench Chinesische RAG Multimodale Fusionsverifikation UNO-Bench Langketten-Inferenzschwächendiagnose und -analyse UNO-Bench Einzelmodell vs. Komplettmodell Renditevergleichsstudie Entdeckung der synergistischen Fähigkeitsverbesserung durch Potenzgesetze auf der UNO-Bench UNO-Bench Chinesisches Leben und Kultur im authentischen Kontext UNO-Bench Audio-Bild-Video-Fusionsbewertung UNO-Bench Open Dataset Schnellladeanleitung UNO-BenchHuggingFace Datenladeprozess UNO-Bench GitHub-Quellcode und Benchmark-Skriptbeispiele UNO-BenchTransformers Inferenzbewertungsprozess Installationsanleitung für die UNO-BenchPython-Umgebungsabhängigkeiten UNO-Bench-Ranking und Fortschritte im Papierökosystem Analyse der differenzierten Vorteile von UNO-Bench und MMBench UNO-Bench und MMMU Multidisziplinärer Vergleich Referenz Vergleich der konkurrierenden Systeme von UNO-Bench und MathVista UNO-Bench-Komprimierungsmethode zur schnellen Ausrichtung mehrerer Benchmarks Die universelle Auswertung von UNO-Bench umfasst sechs Fragetypen. Die Konsistenz der Szenenannotationen in UNO-BenchOOD beträgt 95 %. UNO-Bench Strategie zur Priorisierung der chinesischen Szene UNO-Bench Mehrsprachige Englisch-Erweiterungsinitiative Bewährte Verfahren für die Implementierung der automatisierten Auswertung mit UNO-Bench Von UNO-Bench generierte lange Antworten – Vorschläge zur manuellen Überprüfung UNO-Bench ist so konzipiert, dass es realen Missionen möglichst nahekommt. UNO-Bench Typisches Anwendungsfallmodell Horizontale Bewertung UNO-Bench-Inferenzkette mit mehrstufiger Frage-Antwort-Vollabdeckung UNO-Bench Bild-, Video- und Audio-übergreifende Kombination UNO-Bench – Robustes Modell, Komplettmodell, Produktverbesserung Vergleichende Beobachtung des Schwächste-Glied-Effekts im UNO-Bench-Modell UNO-Bench Industriestandards UNO-Bench Integrierte Verifikationslösung für Wahrnehmung und Schlussfolgerung UNO-Bench Chinesische offene Frage- und Antwortdatenbank UNO-Bench-Datentool für hochwertige menschliche Überprüfung und Konstruktion UNO-Bench Benchmark-Skriptbeispiel: Schnellstart Gesamtnutzenbewertung des UNO-Bench Cross-Modal-Systems UNO-Bench ist für die Betreuung von Forschungsprojekten und die Durchführung von Ausschreibungen konzipiert. Die Trainings- und Inferenzergebnisse von UNO-Bench werden automatisch ausgewertet. UNO-Bench-Methode zur Bewertung der Löslichkeit und Reproduzierbarkeit UNO-Bench Multi-Scenario Model Capability Validation Report Die Open-Source-Benchmarking-Community UNO-Bench entwickelt und implementiert diese Plattform gemeinschaftlich.

Empfohlene Tools

Mehr