ITBear旗下自媒体矩阵:

线性注意力复兴潮起:Kimi新模型突破,MiniMax折返引行业新思考

   时间:2025-11-02 04:48:47 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在大语言模型(LLM)领域,一场关于注意力机制的技术路线之争正悄然展开。随着国产模型在工程实践中的持续推进,线性注意力机制这一曾被边缘化的技术,正重新回到行业视野。其核心驱动力,既源于国内算力资源的有限性,也与智能体(Agent)技术落地的长远目标密切相关。面对国外主流模型闭源、技术细节难以窥探的现状,国内团队正通过创新探索,试图打破传统注意力机制的瓶颈。

线性注意力的研究并非新事。早在2020年前后,学术界便涌现出大量相关论文,试图将注意力机制的时间与内存复杂度从O(n²)降至O(n),以提升长序列处理效率。然而,早期尝试普遍面临精度损失的问题,导致其始终未能被应用于任何开源的、达到业界顶尖水平的大语言模型中。这一技术路线因此长期被视为“效率优先、精度妥协”的权宜之计。

转折点出现在今年下半年。国产模型团队率先掀起线性注意力的复兴浪潮。6月,MiniMax团队推出拥有4560亿总参数、460亿激活参数的MoE模型M1,首次采用“闪电注意力”(lightning attention)机制;8月,Qwen3团队发布的Qwen3-Next模型,同样引入线性注意力变体;9月,DeepSeek团队发布的V3.2模型,则通过稀疏注意力(sparse attention)实现了亚二次方复杂度。这些模型共同的特点是,在大部分或全部网络层中,用线性或亚二次方注意力替代了传统的二次方注意力,为长文本处理和资源优化提供了新思路。

然而,技术路线的探索并非一帆风顺。MiniMax团队在发布M1模型后不久,便悄然转向。其新推出的2300亿参数模型M2,出人意料地放弃了线性注意力,重新采用常规注意力机制。团队解释称,线性注意力在生产环境中表现“棘手”:尽管在常规提示任务中表现尚可,但在推理和多轮对话等关键场景中,精度问题显著——而这两项能力正是聊天会话和智能体应用的核心需求。这一决策一度引发行业对线性注意力实用性的质疑。

就在争议声中,Kimi团队上周发布的Kimi Linear模型,为线性注意力注入了新活力。官方数据显示,该模型通过混合注意力策略,实现了75%的KV缓存缩减和最高6倍的解码吞吐量提升。其架构设计融合了轻量级线性注意力与重量级全注意力:每三个采用Kimi Delta Attention(KDA)机制的Transformer块,搭配一个使用多头潜在注意力(MLA)的块,比例固定为3:1。这一设计既保留了线性注意力的高效性,又通过全注意力层弥补了精度短板。

Kimi Linear的创新不仅体现在混合策略上。其线性部分采用的KDA机制,是对Gated DeltaNet的进一步优化;全注意力部分则用MLA替代了标准模块,通过潜在空间映射降低计算开销。尽管论文未直接对比Qwen3-Next,但与Gated DeltaNet-H1模型(滑动窗口注意力与Gated DeltaNet的结合)相比,Kimi Linear在保持相同生成速度的同时,实现了更高的建模精度。目前,MLA模块尚未整合输出门(sigmoid bypass),但团队计划在未来版本中加入这一特性,以进一步提升模型表现。

这场技术路线之争,折射出大语言模型发展中的深层矛盾:在算力资源有限与模型能力无限追求之间,如何找到平衡点?国产团队的探索表明,线性注意力并非“非此即彼”的选择,而是可以通过混合策略、机制优化等方式,在效率与精度间开辟新路径。随着Kimi Linear等模型的涌现,行业对线性注意力的认知正从“替代方案”转向“补充工具”,其未来应用场景或远超预期。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version