ITBear旗下自媒体矩阵:

Kimi开源混合线性注意力架构Kimi Linear 性能效率双提升 成本降低

   时间:2025-11-02 03:01:44 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

大模型领域迎来重要突破,月之暗面公司正式开源其自主研发的混合线性注意力架构Kimi Linear。该架构在短上下文、长上下文及强化学习扩展机制等多个场景中,首次实现了对传统Transformer架构全注意力机制的全面超越,为人工智能模型效率提升开辟了新路径。

核心创新在于其开发的线性注意力模块Kimi Delta Attention(KDA)。该模块通过引入通道级对角门控机制,在Gated DeltaNet基础上实现技术升级。相较于传统头部遗忘门控,这种细粒度设计使每个特征维度具备独立遗忘率,显著提升了有限状态RNN内存的利用效率。实验数据显示,在保持模型质量的前提下,KDA将KV缓存占用率降低75%,同时使百万级Token解码吞吐量提升至原有架构的6倍。

研究团队采用3:1的混合架构设计,将KDA与全注意力层按比例交错排列。这种创新结构在生成长序列时,既能通过全注意力层维持全局信息流通,又可大幅削减内存消耗。预训练的Kimi Linear模型拥有30亿激活参数和480亿总参数,在1.4万亿token训练数据支撑下,于通用知识、数学推理、编程能力及中文任务等多个维度均展现出显著优势。

技术实现层面,KDA采用Diagonal-Plus-LowRank(DPLR)矩阵变体进行动态参数化,配合定制分块并行算法,在保持与经典delta规则一致性的同时,将计算复杂度降低近半。输出阶段通过块间递归与块内并行策略,充分释放张量核心计算潜力。神经参数化设计采用低秩输出门结构,在确保参数公平比较的基础上,有效缓解注意力陷阱问题。

性能评估显示,该架构在BBH常识推理、MMLU学科测试、HellaSwag情景预测等基准测试中均取得最高分。数学领域方面,在AIME 2025、HMMT 2025等高难度竞赛级测试中表现突出;编程能力验证中,PolyMath-en和LiveCodeBench等平台成绩领先。中文任务评估中,Ceval和CMMLU测试得分创下新高。效率对比实验表明,当处理512k长度序列时,其性能达到传统架构的2.3倍,处理百万级序列时效率提升近3倍。

开源内容包含KDA内核代码、vLLM集成方案及预训练模型检查点。开发者可通过GitHub(fla-org/flash-linear-attention)和Hugging Face(moonshotai/Kimi-Linear-48B-A3B-Instruct)平台获取完整资源。这项突破不仅为长序列建模提供了高效解决方案,更通过直接替代传统注意力机制的特性,显著降低模型优化成本,为人工智能应用落地开辟新可能。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version