Présentation complète d'UNO-Bench : un référentiel ouvert pour l'évaluation unifiée de la compréhension et du raisonnement multimodaux

L’IA est open source • Admin • 06/11/2025 • 103 vues

I. Résumé

UNO-Bench est un banc d'essai open source pour l'évaluation unifiée des questions « modèle unique/modèle complet », couvrant à la fois la perception et le raisonnement. Il propose des questions issues de scénarios réels en chinois et des questions ouvertes à plusieurs étapes. Les données et les outils privilégient la qualité et l'expertise humaine, et intègrent un modèle de notation général pour l'évaluation automatisée.

II. Caractéristiques principales

Cadre de capacités unifié : 44 types de tâches, 5 combinaisons modales, avec le même calibre d'indicateur pour les tâches à modalité unique et à modalité complète.
Haute qualité et solvabilité : 1250 points de données multimodaux complets, construction vérifiée par l'homme, 98 % soluble dans toutes les modalités.
Optimisation de l'efficacité : La compression automatique de 18 benchmarks publics accélère l'évaluation d'environ 90 % et améliore la cohérence d'environ 98 %.
Des types de questions plus réalistes : des questions et réponses ouvertes à plusieurs étapes ont été ajoutées pour couvrir des chaînes de raisonnement complexes.
Notation générale : Prend en charge 6 types de questions, avec une cohérence d'annotation d'environ 95 % dans les scénarios OOD.
Principales conclusions : Les modèles performants présentent une « synergie de loi de puissance » (les capacités augmentent de manière multiplicative avec les combinaisons modales).

III. Installation

1. Jeu de données : datasets.load_dataset("meituan-longcat/UNO-Bench") Récupère les fragments par défaut.

Code source et documentation : Consultez le fichier README et les exemples de scripts d’évaluation dans le dépôt GitHub cloné.
Environnement : Python/Transformers/Datasets. Un environnement standard suffit. Installez les dépendances en suivant les instructions du dépôt.

IV. Cas d'utilisation typiques

Évaluation transversale du modèle : comparer les différences entre le modèle unique et le modèle complet sur une échelle unifiée.
Vérification de scénarios chinois : Capacité de perception et de raisonnement dans des contextes réels/culturels/sociaux.
Analyse de la chaîne de raisonnement : Utiliser des questions ouvertes en plusieurs étapes pour diagnostiquer les faiblesses du raisonnement en chaîne longue.
Système RAG/multimodal : Valider les avantages globaux de la fusion audio, image et vidéo.

V. Écologie et concurrents

Écosystème : Fournit des ensembles de données, des classements et des articles ; la chaîne d'outils est en cours de développement.
Concurrents : Comparé aux benchmarks visuels/spécifiques à un sujet tels que MMBEC, MMMU et MathVista, UNO-Bench met l'accent sur « l'évaluation unifiée du mode unique au mode complet » et sur des scénarios chinois réels ; sa méthode de compression facilite l'alignement rapide de plusieurs benchmarks.

VI. Limitations et précautions

L’applicabilité de la compression automatique doit être vérifiée tâche par tâche ; certaines sous-tâches peuvent manquer d’informations suffisantes.
Le modèle de notation général peut encore présenter des biais pour les réponses longues/les productions génératives, et il est recommandé d'examiner manuellement les échantillons.
Actuellement, l'accent est mis sur les scénarios en langue chinoise, et les collaborations pour des extensions multilingues et des versions anglaises sont toujours sollicitées.
La « synergie de la loi de puissance » est une découverte empirique et doit être revérifiée lorsqu'elle est transférée à de nouvelles tâches.

VII. Adresse du projet

https://github.com/meituan-longcat/UNO-Bench

VIII. Foire aux questions

Q : Quelles sont les modalités et les tâches couvertes par UNO-Bench ?

A : Il couvre des combinaisons d'audio, d'images et de vidéo, avec un total de 5 combinaisons modales et 44 catégories de tâches, ciblant à la fois les dimensions de la perception et du raisonnement.

Q : Comment puis-je exécuter rapidement le test de performance UNO-Bench ?

A : Charger les données via Hugging Face, puis effectuer l'inférence et le scoring à l'aide d'exemples de scripts du dépôt et d'un modèle de scoring général.

Q : Dans quelle mesure la compression automatique affecte-t-elle la fiabilité des résultats ?

A : La cohérence du classement est maintenue à environ 98 % sur 18 benchmarks accessibles au public, mais il est toujours recommandé de combiner cela avec un échantillonnage de l'ensemble original.

Q : Prend-il en charge l'anglais ou plusieurs langues ?

A: Officiellement, nous nous concentrons actuellement sur la version en langue chinoise, et nous recherchons des partenaires pour développer conjointement des versions en anglais et multilingues.

Q : La collaboration en loi de puissance est-elle valable pour tous les modèles ?

A : C’est surtout significatif dans les modèles robustes ; pour les modèles faibles, cela s’apparente davantage à un « effet de maillon faible » et doit être spécifiquement évalué et confirmé.

Présentation complète d'UNO-Bench : un référentiel ouvert pour l'évaluation unifiée de la compréhension et du raisonnement multimodaux

Articles connexes

MeDo : une plateforme de génération d’applications sans code basée sur l’IA qui génère rapidement des applications finies à partir de texte, destinée aux petites et moyennes équipes ainsi qu’aux développeurs individuels.

Apple pourrait intégrer une version personnalisée de Gemini : fonctionnant sur un cloud privé et mettant à jour Siri ; l’accord serait estimé à 1 milliard de dollars par an.

Mem0 vaut-il la peine d’être intégré à un agent ? La mémoire à long terme est utile, mais il faut gérer les limites

Quel type d’équipe Haystack convient-il ? C’est plutôt comme un framework d’ingénierie RAG composable

Outils Recommandés

Présentation complète d&#39;UNO-Bench : un référentiel ouvert pour l&#39;évaluation unifiée de la compréhension et du raisonnement multimodaux

Articles connexes

MeDo : une plateforme de génération d’applications sans code basée sur l’IA qui génère rapidement des applications finies à partir de texte, destinée aux petites et moyennes équipes ainsi qu’aux développeurs individuels.

Apple pourrait intégrer une version personnalisée de Gemini : fonctionnant sur un cloud privé et mettant à jour Siri ; l’accord serait estimé à 1 milliard de dollars par an.

Mem0 vaut-il la peine d’être intégré à un agent ? La mémoire à long terme est utile, mais il faut gérer les limites

Quel type d’équipe Haystack convient-il ? C’est plutôt comme un framework d’ingénierie RAG composable

Outils Recommandés

Soumettre un outil IA

Veuillez confirmer les informations de soumission

Présentation complète d'UNO-Bench : un référentiel ouvert pour l'évaluation unifiée de la compréhension et du raisonnement multimodaux