Retour à L’IA est open source
Présentation complète d'UNO-Bench : un référentiel ouvert pour l'évaluation unifiée de la compréhension et du raisonnement multimodaux

Présentation complète d'UNO-Bench : un référentiel ouvert pour l'évaluation unifiée de la compréhension et du raisonnement multimodaux

L’IA est open source Admin 95 vues

I. Résumé

UNO-Bench est un banc d'essai open source pour l'évaluation unifiée des questions « modèle unique/modèle complet », couvrant à la fois la perception et le raisonnement. Il propose des questions issues de scénarios réels en chinois et des questions ouvertes à plusieurs étapes. Les données et les outils privilégient la qualité et l'expertise humaine, et intègrent un modèle de notation général pour l'évaluation automatisée.

II. Caractéristiques principales

  1. Cadre de capacités unifié : 44 types de tâches, 5 combinaisons modales, avec le même calibre d'indicateur pour les tâches à modalité unique et à modalité complète.
  2. Haute qualité et solvabilité : 1250 points de données multimodaux complets, construction vérifiée par l'homme, 98 % soluble dans toutes les modalités.
  3. Optimisation de l'efficacité : La compression automatique de 18 benchmarks publics accélère l'évaluation d'environ 90 % et améliore la cohérence d'environ 98 %.
  4. Des types de questions plus réalistes : des questions et réponses ouvertes à plusieurs étapes ont été ajoutées pour couvrir des chaînes de raisonnement complexes.
  5. Notation générale : Prend en charge 6 types de questions, avec une cohérence d'annotation d'environ 95 % dans les scénarios OOD.
  6. Principales conclusions : Les modèles performants présentent une « synergie de loi de puissance » (les capacités augmentent de manière multiplicative avec les combinaisons modales).

III. Installation

1. Jeu de données : datasets.load_dataset("meituan-longcat/UNO-Bench") Récupère les fragments par défaut.

  1. Code source et documentation : Consultez le fichier README et les exemples de scripts d’évaluation dans le dépôt GitHub cloné.
  2. Environnement : Python/Transformers/Datasets. Un environnement standard suffit. Installez les dépendances en suivant les instructions du dépôt.

IV. Cas d'utilisation typiques

  1. Évaluation transversale du modèle : comparer les différences entre le modèle unique et le modèle complet sur une échelle unifiée.
  2. Vérification de scénarios chinois : Capacité de perception et de raisonnement dans des contextes réels/culturels/sociaux.
  3. Analyse de la chaîne de raisonnement : Utiliser des questions ouvertes en plusieurs étapes pour diagnostiquer les faiblesses du raisonnement en chaîne longue.
  4. Système RAG/multimodal : Valider les avantages globaux de la fusion audio, image et vidéo.

V. Écologie et concurrents

  1. Écosystème : Fournit des ensembles de données, des classements et des articles ; la chaîne d'outils est en cours de développement.
  2. Concurrents : Comparé aux benchmarks visuels/spécifiques à un sujet tels que MMBEC, MMMU et MathVista, UNO-Bench met l'accent sur « l'évaluation unifiée du mode unique au mode complet » et sur des scénarios chinois réels ; sa méthode de compression facilite l'alignement rapide de plusieurs benchmarks.

VI. Limitations et précautions

  1. L’applicabilité de la compression automatique doit être vérifiée tâche par tâche ; certaines sous-tâches peuvent manquer d’informations suffisantes.
  2. Le modèle de notation général peut encore présenter des biais pour les réponses longues/les productions génératives, et il est recommandé d'examiner manuellement les échantillons.
  3. Actuellement, l'accent est mis sur les scénarios en langue chinoise, et les collaborations pour des extensions multilingues et des versions anglaises sont toujours sollicitées.
  4. La « synergie de la loi de puissance » est une découverte empirique et doit être revérifiée lorsqu'elle est transférée à de nouvelles tâches.

VII. Adresse du projet

https://github.com/meituan-longcat/UNO-Bench

VIII. Foire aux questions

Q : Quelles sont les modalités et les tâches couvertes par UNO-Bench ?

A : Il couvre des combinaisons d'audio, d'images et de vidéo, avec un total de 5 combinaisons modales et 44 catégories de tâches, ciblant à la fois les dimensions de la perception et du raisonnement.

Q : Comment puis-je exécuter rapidement le test de performance UNO-Bench ?

A : Charger les données via Hugging Face, puis effectuer l'inférence et le scoring à l'aide d'exemples de scripts du dépôt et d'un modèle de scoring général.

Q : Dans quelle mesure la compression automatique affecte-t-elle la fiabilité des résultats ?

A : La cohérence du classement est maintenue à environ 98 % sur 18 benchmarks accessibles au public, mais il est toujours recommandé de combiner cela avec un échantillonnage de l'ensemble original.

Q : Prend-il en charge l'anglais ou plusieurs langues ?

A: Officiellement, nous nous concentrons actuellement sur la version en langue chinoise, et nous recherchons des partenaires pour développer conjointement des versions en anglais et multilingues.

Q : La collaboration en loi de puissance est-elle valable pour tous les modèles ?

A : C’est surtout significatif dans les modèles robustes ; pour les modèles faibles, cela s’apparente davantage à un « effet de maillon faible » et doit être spécifiquement évalué et confirmé.

Cadre d'évaluation unifié UNO-Bench pour les modèles Single-Morse et Full-Morse Construction d'une banque de questions à scénarios réels en chinois pour l'ONU-Bench Évaluation du lien de réponse aux questions ouvertes en plusieurs étapes UNO-Bench Évaluation UNO-Bench de la perception et du raisonnement en deux dimensions Le modèle de notation universel UNO-Bench attribue automatiquement les scores. Vérification de la résolubilité intermodale de UNO-Bench à 98 % Méthode de compression automatique du benchmark public UNO-Bench Solution d'optimisation de l'accélération du benchmark UNO-Bench (gain de vitesse d'environ 90 %) La cohérence du classement UNO-Bench est vérifiée à environ 98 %. UNO-Bench propose une évaluation complète couvrant 44 catégories de tâches. UNO-Bench cinq combinaisons modales avec un calibre unifié Vérification de fusion multimodale RAG chinoise UNO-Bench Diagnostic et analyse des faiblesses de l'inférence de chaînes longues UNO-Bench Étude comparative des rendements d'UNO-Bench : modèle unique vs modèle complet Découverte d'amélioration des capacités synergiques de la loi de puissance UNO-Bench UNO-Bench Vie et culture chinoises Contexte authentique Évaluation de la fusion audio-image-vidéo UNO-Bench Guide de chargement rapide du jeu de données ouvert UNO-Bench Processus de chargement des données UNO-BenchHuggingFace Code source et exemples de scripts de benchmark UNO-Bench sur GitHub Processus d'évaluation de l'inférence UNO-BenchTransformers Instructions d'installation des dépendances de l'environnement UNO-BenchPython Classements UNO-Bench et progrès de l'écosystème du papier Analyse des avantages différenciés de UNO-Bench et MMBench Référence de comparaison multidisciplinaire UNO-Bench et MMMU Comparaison des systèmes concurrents UNO-Bench et MathVista Méthode de compression UNO-Bench pour un alignement rapide de plusieurs benchmarks Le système de notation universel UNO-Bench couvre six types de questions. La cohérence des annotations de scènes UNO-BenchOOD est de 95 %. Stratégie d'évaluation prioritaire de la scène chinoise de l'ONU-Bench Initiative de collaboration multilingue UNO-Bench pour l'extension de l'anglais Meilleures pratiques pour la mise en œuvre de l'évaluation automatisée UNO-Bench Réponses longues générées par UNO-Bench - Suggestions de révision manuelle UNO-Bench est conçu pour ressembler étroitement aux missions du monde réel. Évaluation horizontale du modèle de cas d'utilisation typique UNO-Bench Chaîne d'inférence UNO-Bench avec couverture complète de questions-réponses multi-étapes Combinaison intermodale d'images, de vidéos et d'audio UNO-Bench Amélioration du type de produit UNO-Bench robuste modèle complet Observation comparative de l'effet du maillon le plus faible dans le modèle UNO-Bench Normes d'évaluation industrielles UNO-Bench Solution de vérification intégrée UNO-Bench pour la perception et le raisonnement Base de données de questions et réponses ouvertes chinoises UNO-Bench Outil de données UNO-Bench pour une évaluation et une construction humaines de haute qualité Exemple de script de test de performance UNO-Bench : démarrage rapide Évaluation globale des avantages du système intermodal UNO-Bench UNO-Bench est conçu pour la supervision de la recherche et les scénarios d'appel d'offres. Les résultats de l'entraînement et de l'inférence d'UNO-Bench sont automatiquement notés. Méthode d'évaluation de la solubilité et de la reproductibilité UNO-Bench Rapport de validation des capacités du modèle multi-scénarios UNO-Bench La communauté open source de benchmarking UNO-Bench construit et développe collaborativement.

Outils Recommandés

Plus