Modèle Xiaomi MiMo : architecture d’inférence à haut débit MoE, destinée aux utilisateurs ayant une forte inférence de concurrence et des exigences contextuelles longues

1. Informations de base

Le modèle Xiaomi MiMo est un modèle et un système de service de base intelligent général lancé par l’équipe Xiaomi, construit autour des capacités du modèle de langage, et fournit des formes utilisables pour l’interaction avec les pages web et l’accès des développeurs. Le modèle Xiaomi MiMo couvre des versions de modèles à différentes échelles et à différents stades d’entraînement, incluant à la fois des séquences de modèles denses ciblant les tâches d’inférence et des routes hybrides de modèles experts pour une inférence efficace et des flux de travail d’agents, avec un accent global sur l’inférence, le code et l’exécution de tâches complexes.

2. Aperçu du produit

Le positionnement du modèle Xiaomi MiMo fait partie de la capacité générale de base intelligente, avec pour objectif de soutenir des capacités de raisonnement et d’accomplissement de tâches renforcées sur la base de la compréhension et de la génération de langues, et de fournir des poids de modèles déployables et des implémentations d’inférence pour des applications pratiques. En se concentrant sur ce positionnement, le système MiMo couvre deux étapes de pré-formation et post-formation dans le processus de formation, et met l’accent sur des indicateurs clés tels que le débit d’inférence, la longueur du contexte et l’efficacité des coûts dans la mise en œuvre technique pour s’adapter à différents besoins, de l’évaluation de la recherche à l’intégration du produit.

3. Famille de modèles et version représentative

1. Séquence de modèles d’inférence MiMo-7B

La série MiMo-7B est une séquence de modèles de langage orientés raisonnement entraînés à partir de zéro, fournissant un modèle de base, un modèle supervisé d’ajustement fin et une morphologie du modèle alignée par apprentissage par renforcement. Cette voie met l’accent sur l’amélioration du potentiel de raisonnement du modèle fondamental grâce à des stratégies pré-entraînées de traitement et de mélange de données, et introduit des problèmes mathématiques et de programmation vérifiables pour l’apprentissage par renforcement à l’étape post-entraînement, afin que le modèle puisse obtenir une amélioration plus stable du raisonnement mathématique et du raisonnement de code.

2. L’inférence efficace MiMo-V2-Flash et le modèle d’agent

MiMo-V2-Flash appartiennent à la voie du modèle hybride d’architecture experte, qui adopte la conception de séparer l’échelle totale des paramètres et celle des paramètres d’activation, et est orientée vers une inférence à grande vitesse et un flux de travail d’agent. Cette version est conçue pour équilibrer l’efficacité de l’inférence avec la capacité de contexte long, et fournit des ressources telles que des poids et du code d’inférence pour les déploiements réels.

4. Fonctions de base et limites de capacités

1. Raisonnement et résolution

de problèmes Le modèle Xiaomi MiMo met l’accent sur la performance des tâches de raisonnement vérifiables et convient à des scénarios tels que la dérivation mathématique, les problèmes logiques, l’analyse étape par étape et le raisonnement multi-contraintes. Pour les tâches nécessitant la décomposition des problèmes, la résolution étape par étape et la publication de conclusions structurées, les systèmes MiMo s’appuient généralement sur l’apprentissage par renforcement et la construction de données vérifiables comme supports clés.

2. Compréhension et génération de code

Le système MiMo prend les capacités liées à la programmation comme une direction importante, pouvant être utilisée pour des tâches telles que la complétion de code, la mise en œuvre de fonctions, l’assistance aux tests unitaires, le positionnement et la suggestion de réparation d’erreurs, et peut également être utilisée comme composante de raisonnement de code dans des flux de travail automatisés. L’accent des différentes versions sur les tâches de code peut être différent, et la description et les résultats d’évaluation correspondants de la version du modèle prévalent.

3. Tâches d’appel d’agents et d’outils

Dans les scénarios de flux de travail des agents, les modèles liés à MiMo peuvent être utilisés pour la planification des tâches, l’exécution étape par étape et la conversion d’instructions en langage naturel en séquences d’opérations exécutables. Ces capacités reposent souvent sur un traitement à long contexte plus performant, une adhésion stable aux instructions et la capacité à maintenir plusieurs cycles d’état, ce qui les rend adaptées comme composants fondamentaux pour l’exécution de tâches complexes et l’automatisation des processus.

5. Caractéristiques techniques clés

1. Stratégie de pré-entraînement et de données

La voie MiMo-7B met l’accent sur l’amélioration de la densité des modes d’inférence grâce à l’amélioration du prétraitement des données et au mélange de données à plusieurs étapes lors de la phase de pré-entraînement, et à l’introduction de mécanismes tels que la prédiction multi-jetons dans la cible d’entraînement pour prendre en compte la capacité et l’efficacité d’inférence.

2. Alignement post-entraînement et apprentissage par renforcement

La voie MiMo-7B introduit un ensemble de données régulièrement vérifiable pour l’apprentissage par renforcement à l’étape post-entraînement, en se concentrant sur la réduction de la dépendance aux récompenses subjectives avec des signaux vérifiables, améliorant ainsi la stabilité et la reproductibilité de l’entraînement, et favorisant l’amélioration de la cohérence dans les tâches mathématiques et de code.

3. Optimisation de l’efficacité et capacité de contexte long

La voie MiMo-V2-Flash introduit une architecture hybride expert pour réduire la quantité de calcul effective lors de l’inférence, et améliore le débit et la pression sur le cache grâce à des conceptions telles que l’attention hybride et la prédiction multi-jetons, tout en prenant en charge des fenêtres contextuelles plus longues pour s’adapter aux besoins de documents longs, de bases de code et d’exécution de tâches en plusieurs tours.

6. Méthode d’acquisition et forme de déploiement Le

modèle Xiaomi MiMo est généralement fourni de deux manières : d’une part, il s’agit de ressources de recherche telles que les poids des modèles et les rapports techniques, qui sont pratiques pour la recherche et l’évaluation auto-déployée ; Le second est le formulaire d’interaction de page web orienté utilisateur et d’accès à l’API développeur, utilisé pour intégrer les capacités du modèle dans les applications et services. Les exigences de déploiement et la portée du support pour différentes versions du cadre d’inférence peuvent être différentes, et le dépôt de versions et la description technique prévalent.

7. Prix et version

Les services liés à MiMo peuvent proposer à la fois des méthodes d’auto-déploiement et d’appels API en ligne avec des poids open source. Les règles de facturation, les crédits gratuits et la disponibilité régionale des API en ligne sont généralement susceptibles d’évoluer au fil du temps et peuvent varier selon la région ; Si elle doit être utilisée pour la comptabilité des coûts de l’environnement de production, l’affichage en temps réel sur la page officielle de la plateforme ouverte prévaudra.

8. Scénarios et groupes applicables

Le modèle Xiaomi MiMo convient aux équipes R&D et produits nécessitant des capacités de raisonnement et de code, incluant mais sans s’y limiter au développement d’applications d’agents, à la génération et à la réparation de code, à l’évaluation du raisonnement mathématique et logique, aux documents longs et à la base de connaissances, à la planification et à l’exécution de tâches en plusieurs tours, etc. Pour les équipes ayant besoin de liens d’inférence auto-déployés et contrôlables, des poids et implémentations d’inférence open source peuvent également être utilisés pour construire des services d’inférence sur site ou privatisés.

9. Foire aux questions

1. Quelle est la différence entre MiMo-7B et MiMo-V2-Flash en termes de

positionnement Q : Quelle est la différence entre MiMo-7B et MiMo-V2-Flash dans le modèle Xiaomi MiMo ?

R : MiMo-7B est plus enclin à des séquences denses de modèles d’inférence de petite et moyenne taille, mettant l’accent sur la formation de la capacité de raisonnement du pré-entraînement à l’après-entraînement et à l’apprentissage par renforcement vérifiable. MiMo-V2-Flash est plus enclin à la voie hybride expert, mettant l’accent sur l’optimisation de l’efficacité pour le débit d’inférence, le long contexte et les scénarios de flux de travail d’agents.

2. Le modèle Xiaomi MiMo supporte-t-il le déploiement local

Q : Le modèle Xiaomi MiMo peut-il être déployé hors ligne ou en privé ?

R : Certains modèles MiMo fournissent des poids open source et des ressources liées à l’inférence, qui peuvent être utilisées pour l’auto-déploiement et la construction de services d’inférence en privatisation ; Les poids spécifiques disponibles, les codes d’inférence et le champ d’application de la licence sont soumis aux notes de version correspondante.

3. Quelles tâches le modèle MiMo convient-il à la priorité

Q : Le modèle Xiaomi MiMo est-il plus adapté pour le raisonnement ou les conversations par chat ?

R : Le système MiMo dans son ensemble met l’accent sur le raisonnement, le code et l’exécution de tâches complexes, et soutient également l’interaction générale des dialogues. Si les tâches sont principalement de la dérivation mathématique, du raisonnement de code et des processus d’agents, elles peuvent généralement tirer pleinement parti des avantages de leurs voies d’entraînement.

4. Comment confirmer la longueur contextuelle et la limite d’entrée du modèle MiMo

Q : Quelle est la longueur de contexte du modèle MiMo Xiaomi ?

R : Les capacités contextuelles des différentes versions sont différentes, et la description technique de la version spécifique du modèle prévaut ; Lors de l’intégration en ingénierie, il est également nécessaire de confirmer le cadre d’inférence, les ressources matérielles et les limitations côté service.

1. Informations de base

2. Aperçu du produit

3. Famille de modèles et version représentative

1. Séquence de modèles d’inférence MiMo-7B

2. L’inférence efficace MiMo-V2-Flash et le modèle d’agent