返回AI资讯
Kimi Linear 技术报告发布:线性注意力在多场景超越全注意力,开放KDA内核与vLLM集成

Kimi Linear 技术报告发布:线性注意力在多场景超越全注意力,开放KDA内核与vLLM集成

AI资讯 Admin 141 次浏览

Moonshot AI宣布发布Kimi Linear技术报告与开放权重,核心为线性注意力模块Kimi Delta Attention(KDA)与“线性+全注意力(MLA)”的分层混合架构。技术报告(2025年10月30日提交)称,在相同训练配方与规模下,Kimi Linear在短上下文、长上下文与RL式任务上整体优于纯MLA,同时在100万上下文长度下将KV缓存占用最多降低75%,解码吞吐最高提升至6倍;并开源KDA内核、提供vLLM集成与推理示例。

Hugging Face已上线Kimi-Linear-48B-A3B(Base与Instruct)检查点,标注总参数约48B、激活参数约3B、支持1M上下文。GitHub仓库提供KDA算子与混合架构实现,vLLM文档新增KDA页面与集成记录。上述性能与节省指标来自技术报告与官方物料,外部复现实验仍在推进中;读者在评估落地时,可结合自身硬件、批处理与prefill策略验证实际吞吐与延迟。

常见问题

Q:Kimi Linear的关键创新是什么?

A:引入KDA(对Gated DeltaNet的细粒度门控改进)并采用KDA与MLA按层混合的“混合线性架构”,兼顾质量与硬件效率。

Q:与全注意力相比提升体现在哪?

A:报告称在相同训练配方下整体质量更优,且在1M上下文下KV缓存最多降75%、解码吞吐最高提升至6倍;属于官方报告给出的测量结论。

Q:是否已经开源?

A:开源了KDA内核与vLLM实现,并提供开放权重(Base/Instruct)。可在Hugging Face与GitHub获取。

Q:能否直接替换现有全注意力推理?

A:官方定位为“drop-in replacement”,但实际收益取决于模型尺寸、批量、GPU架构与服务框架;建议在目标工作负载上做A/B验证。

Q:有哪些可用的集成与资源?

A:vLLM已合入KDA支持;Hugging Face提供模型卡与集合页,论文登载于arXiv,X上有官宣帖与要点摘要。

推荐工具

更多