Retour à Informations sur l’IA
De MMSU à MMAU-Pro : MiMo-Audio-7B-Instruct : Comment obtenir SOTA en compréhension audio

De MMSU à MMAU-Pro : MiMo-Audio-7B-Instruct : Comment obtenir SOTA en compréhension audio

Informations sur l’IA Admin 49 vues

MiMo-Audio, un modèle audio open-source, prétend réaliser une généralisation inter-tâches en quelques coups après des millions d’heures de pré-entraînement, et a pris la tête dans des benchmarks tels que MMSU, MMAU, MMAR, MMAU-Pro, etc. Pour des scénarios tels que la modération de contenu, le service client intelligent, la récupération de podcasts, les minutes de réunion et les jeux somatosensoriels vocaux, les capacités générales de compréhension et de raisonnement audio de MiMo-Audio méritent une attention et une vérification immédiates.

1. Qu’est-ce que la nouvelle « open source + audio general intelligence »

cette fois-ci 1. Itinéraire de mise à l’échelle : 100M+ heures de pré-formation

Mots clés : MiMo-Audio, pré-entraînement, Few-shot. L’objectif principal est de migrer l’apprentissage auto-supervisé à grande échelle vers des modèles de langage audio, et grâce à l’alignement « audio→-texte », un petit échantillon peut être adapté à plusieurs tâches telles que la reconnaissance du locuteur, la compréhension du son de l’environnement et l’analyse de la structure musicale.

  1. Couverture des tâches : de la compréhension au dialogue et à la synthèse

Mots-clés : MiMo-Audio-7B-Instructer, affiner l’instruction. Après la commande, le modèle peut non seulement effectuer des questions-réponses audio, mais également effectuer plusieurs tours de dialogue, d’extraction d’événements, de description des éléments de rythme et de timbre, formant une boucle fermée de « compréhension → explication claire ».

(1) Signal d’évaluation et calibre de comparaison Mots

clés : MMSU, MMAU, MMAR, MMAU-Pro. Le benchmark met l’accent sur le raisonnement interdomaines et complexe, et peut mieux refléter les capacités générales dans des scénarios à quelques échantillons. Lors de la comparaison, assurez-vous d’indiquer open source/source fermée, la longueur du contexte, la longueur de l’invite et si les outils externes sont autorisés.

  1. Comment essayer et mettre en œuvre rapidement
  1. Schéma de vérification minimum réalisable (POC)

Mots-clés : MiMo-Audio, HF Space, expérience en boucle fermée. Utilisez l’espace interactif officiel pour vérifier trois étapes : définissez une liste de tâches (telles que le nombre de haut-parleurs, les mots-clés, la classification des scènes), préparez 10 à 20 bandes d’audio annoté, utilisez le même modèle d’invite pour la comparaison A/B, et comptez la précision et la latence.

  1. Points clés de l’ingénierie et de l’estimation des coûts

Mots clés : 7B. Accélération du raisonnement et quantification. Le volume 7B est adapté à un déploiement autonome et peut combiner la quantification 4/8 bits avec des frontaux de streaming. Il est recommandé d’activer le traitement par lots et la mise en cache côté serveur. Pour les cibles de retard audio court : la première réponse est de <800 ms, et toute la section est terminée <2-3 s.

(1) Liste de sécurité et de conformité

Mots-clés : sécurité du contenu, respect de la vie privée. Il est nécessaire d’ajouter une politique de désensibilisation pour la protection de la voix des mineurs, les packs de mots sensibles à la région et les sons environnementaux qui incluent la vie privée ; Pour les enregistrements audio médicaux, judiciaires et financiers, des registres manuels d’échantillonnage et d’audit seront ajoutés.

  1. Quels « vrais problèmes » sont résolus avec lui
  1. Service client et inspection de la qualité

Mots-clés : compréhension audio, moins d’échantillon. Extrayez rapidement des promesses illégales, des calibres de prix et des appels émotionnels intenses ; Migrez vers une nouvelle gamme de produits avec un échantillon de petite taille.

  1. Médias et création

Mots-clés : recherche de podcast, résumé d’interview. Générez des plans, des cartes de personnages et des clips de phrases horodatés pour de longs enregistrements audio afin de faciliter le montage et la distribution secondaire.

(1) Scénarios complexes au niveau de l’industrie Mots-clés

: sécurité et acoustique industrielle. L’inférence en plusieurs étapes est effectuée sur les bruits mécaniques anormaux, les éclatements de tuyaux et les bruits de bris de verre et correspond au niveau d’alarme.

Q

: Quels sont les avantages de MiMo-Audio par rapport aux solutions d’assemblage ASR+NLP traditionnelles ?

R : En termes de généralisation à faible échantillon et de raisonnement complexe, MiMo-Audio complète « compréhension + raisonnement » grâce à un modèle unifié, réduisant ainsi les erreurs en cascade, en particulier dans les tâches multi-haut-parleurs et de son ambiant.

Q : MiMo-Audio-7B-Instruct est-il adapté aux déploiements de privatisation ?

R : Le volume 7B peut être déployé sur une seule machine ou dans un petit cluster, et peut répondre aux objectifs de débit et de latence de la plupart des entreprises grâce à la quantification, au cache KV et au traitement par lots.

Q : Comment vérifier objectivement l’affirmation « au-delà du modèle fermé » ?

A : Sur la base des expériences de reproduction MMSU, MMAU, MMAR, MMAU-Pro, le script d’évaluation fixe, la température, la longueur du contexte et le modèle d’invite, la valeur K du petit échantillon et la signification statistique sont enregistrées.

Q : Est-ce favorable aux entreprises chinoises ?

A : 3 à 5 heures de corpus industriel peuvent être préparées pour l’adaptation de petits échantillons, couvrant les accents, les dialectes et les termes de domaine ; Si l’objectif est de sous-traiter les résumés de personnages, des exemples supplémentaires d’ancrage de caractères sont fournis pour améliorer la stabilité.

Outils Recommandés

Plus