Publication du rapport technique de Kimi Linear : L’attention linéaire surpasse l’attention complète dans de nombreux scénarios, noyau KDA ouvert et intégration vLLM

Informations sur l’IA • Admin • 31/10/2025 • 191 vues

Moonshot AI a annoncé la publication de son rapport technique et de ses poids ouverts pour Kimi Linear, mettant en lumière ses composants principaux : le module d’attention linéaire Kimi Delta Attention (KDA) et une architecture hybride hiérarchique combinant attention linéaire et attention complète (MLA). Le rapport technique (soumis le 30 octobre 2025) indique qu’à conditions d’entraînement et d’échelle identiques, Kimi Linear surpasse MLA pur pour les tâches à contexte court, à contexte long et de type apprentissage par renforcement. Il réduit également l’utilisation du cache clé-valeur jusqu’à 75 % et multiplie par six le débit de décodage avec une longueur de contexte d’un million. De plus, le rapport propose le noyau KDA en open source et fournit des exemples d’intégration et d’inférence de vLLM.

Hugging Face a lancé le point de contrôle Kimi-Linear-48B-A3B (Base et Instruct), annotant environ 48 octets de paramètres au total, environ 3 octets de paramètres d'activation et prenant en charge 1 Mo de contexte. Le dépôt GitHub fournit les opérateurs KDA et les implémentations d'architecture hybride, et la documentation vLLM a été enrichie d'une page KDA et d'enregistrements d'intégration. Les indicateurs de performance et de réduction des coûts mentionnés ci-dessus proviennent de rapports techniques et de documents officiels ; des tests de reproduction externes sont en cours. Lors de l'évaluation du déploiement, les utilisateurs peuvent vérifier le débit et la latence réels en fonction de leur propre matériel, du traitement par lots et des stratégies de préremplissage.

Foire aux questions

Q : Quelles sont les principales innovations de Kimi Linear ?

A : Introduire KDA (une amélioration fine du contrôle de porte de Gated DeltaNet) et adopter une « architecture linéaire hybride » qui mélange KDA et MLA couche par couche pour équilibrer la qualité et l'efficacité matérielle.

Q : En quoi est-ce mieux qu'une attention pleine et entière ?

A : Le rapport indique que la qualité globale est meilleure avec la même formule d'entraînement, que le cache KV est réduit jusqu'à 75 % et que le débit de décodage est multiplié par 6 dans un contexte de 1M ; ce sont les conclusions de mesure présentées dans le rapport officiel.

Q : Est-ce que le code source est ouvert ?

A : Nous avons publié en open source le noyau KDA et l'implémentation vLLM, et fourni des poids ouverts (Base/Instruct). Ils sont disponibles sur Hugging Face et GitHub.

Q : Peut-il remplacer directement le raisonnement actuel basé sur l'attention totale ?

A : Officiellement présenté comme un « remplacement direct », mais les avantages réels dépendent de la taille du modèle, de la taille du lot, de l'architecture GPU et du framework de service ; il est recommandé d'effectuer une validation A/B sur la charge de travail cible.

Q : Quelles intégrations et ressources sont disponibles ?

A : vLLM a été intégré au support KDA ; Hugging Face fournit des fiches de modèle et des pages de collection, et l'article est publié sur arXiv, où se trouvent une annonce officielle et un résumé des points clés.

Publication du rapport technique de Kimi Linear : L’attention linéaire surpasse l’attention complète dans de nombreux scénarios, noyau KDA ouvert et intégration vLLM

Articles connexes

MiniMax Music 2.0 est disponible : composition, voix et production intégrées grâce à l’IA, prenant en charge de multiples styles et un contrôle émotionnel précis.

OpenAI lance des packs de crédits Codex : les membres Plus et Pro peuvent acheter des crédits, qui prennent effet automatiquement une fois la limite dépassée.

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés

Publication du rapport technique de Kimi Linear : L’attention linéaire surpasse l’attention complète dans de nombreux scénarios, noyau KDA ouvert et intégration vLLM

Articles connexes

MiniMax Music 2.0 est disponible : composition, voix et production intégrées grâce à l’IA, prenant en charge de multiples styles et un contrôle émotionnel précis.

OpenAI lance des packs de crédits Codex : les membres Plus et Pro peuvent acheter des crédits, qui prennent effet automatiquement une fois la limite dépassée.

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés

Soumettre un outil IA

Veuillez confirmer les informations de soumission