大模型领域迎来重要突破,月之暗面公司正式开源其自主研发的混合线性注意力架构Kimi Linear。该架构通过创新设计,在短上下文、长上下文及强化学习扩展机制等多个场景中,首次实现对传统Transformer架构全注意力机制的全面超越。实验数据显示,新架构在保持模型质量的同时,将KV缓存使用率降低75%,并在百万级Token上下文解码任务中实现6倍吞吐量提升。
核心创新在于名为Kimi Delta Attention(KDA)的线性注意力模块。研究团队在Gated DeltaNet基础上引入通道级对角门控机制,使每个特征维度具备独立遗忘率。这种细粒度控制方式显著优化了有限状态RNN内存管理,配合Diagonal-Plus-LowRank矩阵的定制分块并行算法,在保持经典delta规则一致性的前提下,将计算量大幅压缩。实验表明,该算子效率较传统DPLR公式提升约100%。
架构设计采用3:1的混合比例,即每3层KDA模块搭配1层全注意力层。这种交错排列方式在生成长序列时,既能通过全注意力层维持全局信息流,又将内存占用降低75%。预训练模型采用30亿激活参数和480亿总参数的规模,在1.4万亿token训练数据上验证了其优越性。评估覆盖通用知识、数学推理、编程能力及中文任务四大领域,结果显示新架构在BBH、MMLU、HellaSwag等基准测试中全面领先,数学竞赛题AIME 2025和编程基准LiveCodeBench等高难度任务中同样表现卓越。
效率优势随序列长度增加愈发显著。在4k-16k短序列场景下,性能与全注意力机制持平;当序列长度扩展至128k时,速度开始明显超越;处理512k序列时性能达到2.3倍,百万级序列处理速度更提升至6倍。这种特性使其在强化学习场景中表现突出,特别是在需要处理扩展轨迹、工具交互和复杂决策空间的测试时扩展任务中,展现出传统架构难以企及的优势。
技术实现层面,研究团队通过多组件协同提升模型表达能力。输出门采用低秩参数化设计,在保持性能的同时缓解注意力陷阱问题;混合架构中3:1的层间比例经过大量实验验证为最优解;对所有MLA层移除位置编码后,长上下文处理能力依然保持竞争力。合成任务测试显示,新架构在需要精确记忆和逻辑推理的场景中,错误率较基线模型降低40%以上。










