Moonshot AI hat die Veröffentlichung seines technischen Berichts und der zugehörigen Gewichte für Kimi Linear bekanntgegeben. Im Fokus stehen die Kernkomponenten: das lineare Aufmerksamkeitsmodul Kimi Delta Attention (KDA) und eine hierarchische Hybridarchitektur, die lineare und vollständige Aufmerksamkeit (MLA) kombiniert. Der technische Bericht (eingereicht am 30. Oktober 2025) zeigt, dass Kimi Linear bei gleichem Trainingsansatz und gleicher Skalierung reines MLA in Kurz-, Lang- und RL-ähnlichen Aufgaben übertrifft. Zudem reduziert es die Nutzung des Key-Value-Caches um bis zu 75 % und erhöht den Dekodierungsdurchsatz bei einer Kontextlänge von 1 Million um bis zu das Sechsfache. Der Bericht stellt außerdem den KDA-Kernel als Open Source bereit und bietet Beispiele für die vLLM-Integration und -Inferenz.
Hugging Face hat den Kimi-Linear-48B-A3B (Base and Instruct) Checkpoint veröffentlicht. Dieser enthält Annotationen für ca. 48 Byte Gesamtparameter, ca. 3 Byte Aktivierungsparameter und unterstützt 1 Million Kontext. Das GitHub-Repository bietet KDA-Operatoren und Implementierungen hybrider Architekturen. Die vLLM-Dokumentation wurde um eine KDA-Seite und Integrationsprotokolle ergänzt. Die oben genannten Kennzahlen zu Leistung und Kosteneinsparungen stammen aus technischen Berichten und offiziellen Dokumenten; externe Reproduktionsexperimente laufen noch. Bei der Evaluierung des Einsatzes können Anwender den tatsächlichen Durchsatz und die Latenz anhand ihrer eigenen Hardware, Batch-Verarbeitung und Prefill-Strategien überprüfen.
Häufig gestellte Fragen
F: Was sind die wichtigsten Innovationen von Kimi Linear?
A: Einführung von KDA (einer fein abgestuften Verbesserung des Gated DeltaNet) und Anwendung einer "hybriden linearen Architektur", die KDA und MLA Schicht für Schicht kombiniert, um Qualität und Hardwareeffizienz in Einklang zu bringen.
F: Inwiefern verbessert es sich im Vergleich zu voller Aufmerksamkeit?
A: Im Bericht wird festgestellt, dass die Gesamtqualität bei gleicher Trainingsformel besser ist, der KV-Cache um bis zu 75 % reduziert und der Dekodierungsdurchsatz im Kontext von 1M um bis zu das Sechsfache erhöht wird; dies sind Messergebnisse aus dem offiziellen Bericht.
F: Wurde es als Open Source veröffentlicht?
A: Wir haben den KDA-Kernel und die vLLM-Implementierung als Open Source veröffentlicht und offene Gewichte (Base/Instruct) bereitgestellt. Diese sind auf Hugging Face und GitHub verfügbar.
F: Kann es das bestehende Full Attention Reasoning direkt ersetzen?
A: Offiziell als „direkter Ersatz“ positioniert, hängen die tatsächlichen Vorteile jedoch von der Modellgröße, der Batchgröße, der GPU-Architektur und dem Service-Framework ab; es wird empfohlen, eine A/B-Validierung an der Ziel-Workload durchzuführen.
F: Welche Integrationen und Ressourcen stehen zur Verfügung?
A: vLLM wurde in die KDA-Unterstützung integriert; Hugging Face stellt Modellkarten und Sammlungsseiten bereit, und der Artikel ist auf arXiv veröffentlicht, wo es einen offiziellen Ankündigungsbeitrag und eine Zusammenfassung der wichtigsten Punkte gibt.