Kimi Linear 技术报告发布：线性注意力在多场景超越全注意力，开放KDA内核与vLLM集成

AI资讯 • Admin • 2025/10/31 • 187 次浏览

Moonshot AI宣布发布Kimi Linear技术报告与开放权重，核心为线性注意力模块Kimi Delta Attention（KDA）与“线性+全注意力（MLA）”的分层混合架构。技术报告（2025年10月30日提交）称，在相同训练配方与规模下，Kimi Linear在短上下文、长上下文与RL式任务上整体优于纯MLA，同时在100万上下文长度下将KV缓存占用最多降低75%，解码吞吐最高提升至6倍；并开源KDA内核、提供vLLM集成与推理示例。

Hugging Face已上线Kimi-Linear-48B-A3B（Base与Instruct）检查点，标注总参数约48B、激活参数约3B、支持1M上下文。GitHub仓库提供KDA算子与混合架构实现，vLLM文档新增KDA页面与集成记录。上述性能与节省指标来自技术报告与官方物料，外部复现实验仍在推进中；读者在评估落地时，可结合自身硬件、批处理与prefill策略验证实际吞吐与延迟。

常见问题

Q：Kimi Linear的关键创新是什么？

A：引入KDA（对Gated DeltaNet的细粒度门控改进）并采用KDA与MLA按层混合的“混合线性架构”，兼顾质量与硬件效率。

Q：与全注意力相比提升体现在哪？

A：报告称在相同训练配方下整体质量更优，且在1M上下文下KV缓存最多降75%、解码吞吐最高提升至6倍；属于官方报告给出的测量结论。

Q：是否已经开源？

A：开源了KDA内核与vLLM实现，并提供开放权重（Base/Instruct）。可在Hugging Face与GitHub获取。

Q：能否直接替换现有全注意力推理？

A：官方定位为“drop-in replacement”，但实际收益取决于模型尺寸、批量、GPU架构与服务框架；建议在目标工作负载上做A/B验证。

Q：有哪些可用的集成与资源？

A：vLLM已合入KDA支持；Hugging Face提供模型卡与集合页，论文登载于arXiv，X上有官宣帖与要点摘要。

Kimi Linear 技术报告发布：线性注意力在多场景超越全注意力，开放KDA内核与vLLM集成

相关文章

MiniMax Music 2.0发布：AI作曲、演唱与制作一体化，支持多风格与情绪控制

OpenAI上线Codex额度包：Plus与Pro可购买Credits，超限后自动生效

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

Kimi Linear 技术报告发布：线性注意力在多场景超越全注意力，开放KDA内核与vLLM集成

相关文章

MiniMax Music 2.0发布：AI作曲、演唱与制作一体化，支持多风格与情绪控制

OpenAI上线Codex额度包：Plus与Pro可购买Credits，超限后自动生效

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

提交AI工具

请确认提交信息