戻るAI情報
Kimi Linearの技術レポートが公開されました: 複数のシナリオで線形アテンションが完全アテンションを上回る、オープンKDAカーネルとvLLMの統合

Kimi Linearの技術レポートが公開されました: 複数のシナリオで線形アテンションが完全アテンションを上回る、オープンKDAカーネルとvLLMの統合

AI情報 Admin 140 回閲覧

Moonshot AIは、Kimi Linearの技術レポートとオープンウェイトの公開を発表しました。このレポートでは、その中核コンポーネントであるKimi Delta Attention(KDA)線形アテンションモジュールと、線形アテンションとフルアテンション(MLA)を組み合わせた階層型ハイブリッドアーキテクチャに焦点を当てています。この技術レポート(2025年10月30日提出)によると、同じトレーニングレシピとスケールにおいて、Kimi Linearはショートコンテキスト、ロングコンテキスト、RLスタイルのタスクにおいて、純粋なMLAよりも優れたパフォーマンスを発揮します。また、キーバリューキャッシュの使用量を最大75%削減し、100万コンテキスト長でデコードスループットを最大6倍向上させます。さらに、レポートではKDAカーネルをオープンソース化し、vLLM統合と推論の例を提供しています。

Hugging Faceは、Kimi-Linear-48B-A3B(ベースおよび命令)チェックポイントをリリースしました。このチェックポイントは、合計約48バイトのパラメータ、約3バイトのアクティベーションパラメータ、そして1Mのコンテキストをサポートしています。GitHubリポジトリではKDA演算子とハイブリッドアーキテクチャの実装が提供されており、vLLMドキュメントにはKDAページと統合記録が追加されています。上記のパフォーマンスとコスト削減の指標は、技術レポートと公式資料からのものであり、外部での再現実験は現在進行中です。導入を評価する際には、読者は自身のハードウェア、バッチ処理、およびプリフィル戦略に基づいて、実際のスループットとレイテンシを検証できます。

よくある質問

Q: Kimi Linear の主な革新は何ですか?

A: KDA (Gated DeltaNet のきめ細かなゲーティング改良) を導入し、KDA と MLA をレイヤーごとに組み合わせて品質とハードウェア効率のバランスをとる「ハイブリッド線形アーキテクチャ」を採用します。

Q: 完全な注意力と比べて、どのように改善されますか?

A: レポートでは、同じトレーニング方式で全体的な品質が向上し、1M コンテキストで KV キャッシュが最大 75% 削減され、デコード スループットが最大 6 倍に増加すると述べられています。これらは公式レポートに記載されている測定結論です。

Q: オープンソース化されていますか?

A: KDAカーネルとvLLM実装をオープンソース化し、オープンな重み(Base/Instruct)を提供しています。これらはHugging FaceとGitHubで入手できます。

Q: 既存の完全注意推論を直接置き換えることはできますか?

A: 公式には「ドロップイン代替」として位置付けられていますが、実際の利点はモデル サイズ、バッチ サイズ、GPU アーキテクチャ、サービス フレームワークによって異なります。対象のワークロードで A/B 検証を実行することをお勧めします。

Q: どのような統合とリソースが利用可能ですか?

A: vLLM は KDA サポートに統合されており、Hugging Face ではモデル カードとコレクション ページが提供されており、論文は arXiv で公開されており、公式発表投稿と要点の要約が掲載されています。

KimiLinear リニアアテンション KimLinearKDA カーネル オープンソース KimLinearMLA ハイブリッド アーキテクチャ KimiLinear 技術レポートを公開 KimiLinear オープンウェイト ダウンロード キミリニアハグフェイスチェックポイント KimiLinear48B パラメトリックモデル KimiLinearA3Bが3Bをアクティブにする KimiLinear は 1M コンテキストをサポートします。 KimiLinearKVキャッシュが75%減少 KimiLinearデコードスループット6倍 KimiLinearの短期および長期のコンテキストにおける利点 KimiLinearRLタスクのパフォーマンス KimiLinearvLLMワンクリック統合 KimiLinear推論のサンプルコード キミリニアデルタアテンション KimiLinearGatedDeltaNet の改善 KimiLinear ハイブリッドリニアアーキテクチャ KimiLinear トータルアテンション比較 キミリニアドロピンの代替品 KimiLinear バッチおよびプレフィル KimiLinear 遅延スループット評価 KimLinearGPU アーキテクチャの適応 KimiLinear サービス フレームワークの展開 KimiLinearMoonshotAI リリース KimiLinear公式資料のポイント KimLinearXiv 技術記事 KimiLinearBaseの著作権侵害 KimiLinearInstructの重み KimiLinear のトレーニング式は同じです。 KimiLinearは品質と効率のバランスをとっています KimiLinear 長シーケンス推論 KimiLinear Enterprise 実装評価 KimiLinearKV メモリ最適化 KimiLinearは推論コストを削減します KimiLinearの非常に長いコンテキスト KimiLinearハイブリッドアテンションレイヤー KimLinear オープンソース リポジトリ GitHub KimiLinearモデルカードの解釈 キミリニアA/B実験ガイド KimiLinear 導入のベストプラクティス KimiLinearストリーミングデコードパフォーマンス KimiLinear検索拡張シナリオ KimiLinearコードと公式 キミリニア アライメント vLLM バージョン KimiLinearサービスの安定性 KimiLinearのセキュリティとコンプライアンス KimiLinearエコシステム統合の進捗 KimiLinearコミュニティの再現結果 KimiLinear よくある質問のまとめ

関連記事

MiniMax Music 2.0 リリース: AI を活用した作曲、ボーカル、制作が統合され、複数のスタイルと感情のコントロールをサポートします。

MiniMax Music 2.0 リリース: AI を活用した作曲、ボーカル、制作が統合され、複数のスタイルと感情のコントロールをサポートします。

MiniMaxは、ソーシャルメディアと公式サイトで同時に「MiniMax Music 2.0」を発表し、「AI作曲家、歌手、プロデューサー」と位置付けています。リアルなボーカル、ジャンルを超えた表現力...

OpenAI が Codex クレジット パッケージを開始: Plus および Pro メンバーはクレジットを購入できます。クレジットは制限を超えた後に自動的に有効になります。

OpenAI が Codex クレジット パッケージを開始: Plus および Pro メンバーはクレジットを購入できます。クレジットは制限を超えた後に自動的に有効になります。

OpenAIは、ChatGPT PlusおよびProユーザー向けにCodex Creditsを導入すると発表しました。これにより、ユーザーはデータ使用量や速度制限に達した後もサービスを継続して利用でき...

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

2026年6月1日、IT HomeはGSMAが本日、2026年6月24日から25日まで上海MWCでテーマイベントとして「ヒューマノイドロボットペナルティシュートアウト」を開催することを正式に発表したと...

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

2026年6月1日時点でも、OpenAIヘルプセンターのChatGPTリリースノートは最新の更新として表示されています。5月29日のエントリーには次のように記載されています:Codexは現在、Code...

おすすめツール

もっと見る