Retour à Informations sur l’IA
Publication du rapport technique de Kimi Linear : L’attention linéaire surpasse l’attention complète dans de nombreux scénarios, noyau KDA ouvert et intégration vLLM

Publication du rapport technique de Kimi Linear : L’attention linéaire surpasse l’attention complète dans de nombreux scénarios, noyau KDA ouvert et intégration vLLM

Informations sur l’IA Admin 141 vues

Moonshot AI a annoncé la publication de son rapport technique et de ses poids ouverts pour Kimi Linear, mettant en lumière ses composants principaux : le module d’attention linéaire Kimi Delta Attention (KDA) et une architecture hybride hiérarchique combinant attention linéaire et attention complète (MLA). Le rapport technique (soumis le 30 octobre 2025) indique qu’à conditions d’entraînement et d’échelle identiques, Kimi Linear surpasse MLA pur pour les tâches à contexte court, à contexte long et de type apprentissage par renforcement. Il réduit également l’utilisation du cache clé-valeur jusqu’à 75 % et multiplie par six le débit de décodage avec une longueur de contexte d’un million. De plus, le rapport propose le noyau KDA en open source et fournit des exemples d’intégration et d’inférence de vLLM.

Hugging Face a lancé le point de contrôle Kimi-Linear-48B-A3B (Base et Instruct), annotant environ 48 octets de paramètres au total, environ 3 octets de paramètres d'activation et prenant en charge 1 Mo de contexte. Le dépôt GitHub fournit les opérateurs KDA et les implémentations d'architecture hybride, et la documentation vLLM a été enrichie d'une page KDA et d'enregistrements d'intégration. Les indicateurs de performance et de réduction des coûts mentionnés ci-dessus proviennent de rapports techniques et de documents officiels ; des tests de reproduction externes sont en cours. Lors de l'évaluation du déploiement, les utilisateurs peuvent vérifier le débit et la latence réels en fonction de leur propre matériel, du traitement par lots et des stratégies de préremplissage.

Foire aux questions

Q : Quelles sont les principales innovations de Kimi Linear ?

A : Introduire KDA (une amélioration fine du contrôle de porte de Gated DeltaNet) et adopter une « architecture linéaire hybride » qui mélange KDA et MLA couche par couche pour équilibrer la qualité et l'efficacité matérielle.

Q : En quoi est-ce mieux qu'une attention pleine et entière ?

A : Le rapport indique que la qualité globale est meilleure avec la même formule d'entraînement, que le cache KV est réduit jusqu'à 75 % et que le débit de décodage est multiplié par 6 dans un contexte de 1M ; ce sont les conclusions de mesure présentées dans le rapport officiel.

Q : Est-ce que le code source est ouvert ?

A : Nous avons publié en open source le noyau KDA et l'implémentation vLLM, et fourni des poids ouverts (Base/Instruct). Ils sont disponibles sur Hugging Face et GitHub.

Q : Peut-il remplacer directement le raisonnement actuel basé sur l'attention totale ?

A : Officiellement présenté comme un « remplacement direct », mais les avantages réels dépendent de la taille du modèle, de la taille du lot, de l'architecture GPU et du framework de service ; il est recommandé d'effectuer une validation A/B sur la charge de travail cible.

Q : Quelles intégrations et ressources sont disponibles ?

A : vLLM a été intégré au support KDA ; Hugging Face fournit des fiches de modèle et des pages de collection, et l'article est publié sur arXiv, où se trouvent une annonce officielle et un résumé des points clés.

KimiLinear Attention linéaire Noyau KimiLinearKDA open source Architecture hybride KimiLinearMLA Publication du rapport technique de KimiLinear Téléchargement du poids ouvert de KimiLinear KimiLinearHuggingFace point de contrôle Modèle paramétrique KimiLinear48B KimiLinearA3B active 3B KimiLinear prend en charge 1M de contexte. Cache KimiLinearKV réduit de 75 % Débit de décodage KimiLinear 6x L'avantage de KimiLinear dans les contextes à court et à long terme performances de la tâche KimiLinearRL Intégration en un clic de KimiLinearvLLM Exemple de code d'inférence KimiLinear KimiLinearDeltaAttention Améliorations de KimiLinearGatedDeltaNet Architecture linéaire hybride KimiLinear Comparaison de l'attention totale KimiLinear Remplacement KimiLineardropin KimiLinear Batch et préremplissage Évaluation du débit retardé de KimiLinear Adaptation de l'architecture KimiLinearGPU Déploiement du framework de services KimiLinear KimiLinearMoonshotAI publié Points clés des documents officiels de KimiLinear Article technique KimiLineararXiv violation du droit d'auteur de KimiLinearBase Poids KimiLinearInstruct La formule d'entraînement KimiLinear est la même. KimiLinear allie qualité et efficacité Inférence de séquences longues KimiLinear Évaluation de la mise en œuvre de KimiLinear Enterprise Optimisation de la mémoire KimiLinearKV KimiLinear réduit les coûts d'inférence Le contexte extrêmement long de KimiLinear Couche d'attention hybride KimiLinear Dépôt open source KimiLinear GitHub Interprétation de la carte du modèle KimiLinear Guide d'expérimentation KimiLinearA/B Meilleures pratiques de déploiement de KimiLinear Performances de décodage en flux continu KimiLinear Scénarios d'amélioration de la recherche KimiLinear Codes et formules KimiLinear Version vLLM d'alignement KimiLinear Stabilité du service KimiLinear Sécurité et conformité de KimiLinear Progrès de l'intégration de l'écosystème KimiLinear Résultats de reproduction de la communauté KimiLinear Résumé des questions fréquemment posées sur KimiLinear

Outils Recommandés

Plus