Moonshot AIは、Kimi Linearの技術レポートとオープンウェイトの公開を発表しました。このレポートでは、その中核コンポーネントであるKimi Delta Attention(KDA)線形アテンションモジュールと、線形アテンションとフルアテンション(MLA)を組み合わせた階層型ハイブリッドアーキテクチャに焦点を当てています。この技術レポート(2025年10月30日提出)によると、同じトレーニングレシピとスケールにおいて、Kimi Linearはショートコンテキスト、ロングコンテキスト、RLスタイルのタスクにおいて、純粋なMLAよりも優れたパフォーマンスを発揮します。また、キーバリューキャッシュの使用量を最大75%削減し、100万コンテキスト長でデコードスループットを最大6倍向上させます。さらに、レポートではKDAカーネルをオープンソース化し、vLLM統合と推論の例を提供しています。
Hugging Faceは、Kimi-Linear-48B-A3B(ベースおよび命令)チェックポイントをリリースしました。このチェックポイントは、合計約48バイトのパラメータ、約3バイトのアクティベーションパラメータ、そして1Mのコンテキストをサポートしています。GitHubリポジトリではKDA演算子とハイブリッドアーキテクチャの実装が提供されており、vLLMドキュメントにはKDAページと統合記録が追加されています。上記のパフォーマンスとコスト削減の指標は、技術レポートと公式資料からのものであり、外部での再現実験は現在進行中です。導入を評価する際には、読者は自身のハードウェア、バッチ処理、およびプリフィル戦略に基づいて、実際のスループットとレイテンシを検証できます。
よくある質問
Q: Kimi Linear の主な革新は何ですか?
A: KDA (Gated DeltaNet のきめ細かなゲーティング改良) を導入し、KDA と MLA をレイヤーごとに組み合わせて品質とハードウェア効率のバランスをとる「ハイブリッド線形アーキテクチャ」を採用します。
Q: 完全な注意力と比べて、どのように改善されますか?
A: レポートでは、同じトレーニング方式で全体的な品質が向上し、1M コンテキストで KV キャッシュが最大 75% 削減され、デコード スループットが最大 6 倍に増加すると述べられています。これらは公式レポートに記載されている測定結論です。
Q: オープンソース化されていますか?
A: KDAカーネルとvLLM実装をオープンソース化し、オープンな重み(Base/Instruct)を提供しています。これらはHugging FaceとGitHubで入手できます。
Q: 既存の完全注意推論を直接置き換えることはできますか?
A: 公式には「ドロップイン代替」として位置付けられていますが、実際の利点はモデル サイズ、バッチ サイズ、GPU アーキテクチャ、サービス フレームワークによって異なります。対象のワークロードで A/B 検証を実行することをお勧めします。
Q: どのような統合とリソースが利用可能ですか?
A: vLLM は KDA サポートに統合されており、Hugging Face ではモデル カードとコレクション ページが提供されており、論文は arXiv で公開されており、公式発表投稿と要点の要約が掲載されています。