从DeltaNet到线性注意力：阿里、Kimi如何用新改进破解长文本瓶颈？

时间：2025-12-01 16:55:36 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在大型语言模型（LLM）的发展中，注意力机制始终是核心组件。传统全注意力机制虽能高效处理信息，但其计算复杂度随文本长度呈平方级增长，成为处理长文档的瓶颈。近年来，研究者们开始探索“稀疏注意力”和“线性注意力”两种改进方向，试图在效率与效果之间找到平衡。

线性注意力通过移除全注意力中的Softmax函数，将复杂度从平方级降至线性级。这一思路最早可追溯至2020年的研究，其核心是将自注意力机制转化为循环神经网络（RNN）的递推形式。然而，早期线性注意力在信息检索能力上存在缺陷，难以在长文本中保持稳定表现。直到2021年，研究者引入Delta Rule更新规则，通过更高效的权重调整机制，显著提升了线性注意力的上下文建模能力。

2024年，线性注意力领域迎来重要突破。阿里巴巴与月之暗面分别开源的Qwen3-Next和Kimi Linear模型，均采用线性注意力与全注意力的混合架构。其中，线性注意力部分基于DeltaNet的改进版本Gated DeltaNet，通过引入门控机制和动态衰减策略，进一步优化了记忆控制与信息检索效率。这种混合设计既保留了全注意力在短文本中的优势，又利用线性注意力降低了长文本推理的计算成本。

DeltaNet的核心贡献者杨松琳指出，线性注意力的理论缺陷在于其状态空间固定，导致长文本处理能力受限。然而，这一特性也使其在推理阶段具有显著优势：混合架构中75%的层替换为线性注意力后，模型的KV Cache规模可减少3/4，从而支持更大批量的推理请求。这种效率提升在需要同时服务大量用户的场景中尤为重要。

尽管线性注意力在效率上表现突出，但其效果仍存在争议。MiniMax公司在2024年初发布的M1模型中尝试了线性注意力与全注意力的混合架构，但在同年10月发布的M2模型中又回归全注意力。研究者分析认为，线性注意力在多跳推理任务中表现较弱，其模糊化的信息处理方式难以满足Agentic AI对精准状态追踪的需求。相比之下，全注意力通过直接建模点对点关系，在复杂推理任务中更具优势。

数据限制成为线性注意力发展的新机遇。研究表明，在数据量较小的后训练和强化学习阶段，线性注意力因其归纳偏见特性可能表现更优。其邻近token关注倾向在数据稀缺时能提供更稳定的先验知识，而全注意力则可能因数据不足导致过拟合。线性注意力在计算理论上属于NC¹-complete架构，具备超越TC⁰类架构（如全注意力）的状态追踪能力，这在需要持续维护变量状态的代码生成或网页操作任务中具有潜在优势。

当前，线性注意力的研究正聚焦于更新规则的优化。研究者尝试将梯度下降、动态扩容等机制引入权重更新过程，例如通过多次梯度下降替代单次更新，或在记忆状态中引入混合专家（MoE）结构。同时，滑窗机制与线性注意力的结合也成为新方向，邻近token采用滑窗处理，远距离信息则通过线性注意力压缩，以平衡计算效率与信息完整性。

稀疏注意力作为另一主要改进方向，正朝着动态稀疏化发展。静态稀疏化因信息遗漏风险已被逐步淘汰，而动态稀疏化通过block级或token级的选择机制，在硬件实现效率与信息完整性间寻求平衡。例如，DeepSeek的动态稀疏注意力（DSA）采用轻量级全注意力作为“indexer”，生成全局注意力矩阵后进行Top-K选择，既保证了精度又降低了计算成本。然而，稀疏注意力仍面临KV Cache规模瓶颈，多数实现仍需保留全部缓存，限制了其在长文本场景中的应用。

线性注意力开源社区FLA的兴起为技术普及提供了新动力。该社区由杨松琳发起，旨在通过标准化算子库和模块化设计降低线性注意力的使用门槛。核心贡献者张宇开发的变长训练模块，解决了线性注意力在动态序列处理中的关键难题。Kimi团队正是通过FLA社区注意到张宇的工作，并邀请其加入研究团队，进一步推动了线性注意力的工业应用。

尽管混合架构已成为当前主流，但研究者普遍认为，完全替代全注意力仍需突破。理想的长文本处理方案可能需要结合稀疏注意力的信息选择能力与线性注意力的计算效率。例如，通过动态混合DSA与Gated DeltaNet，在全局层面用稀疏注意力筛选关键信息，在局部层面用线性注意力压缩冗余内容，从而构建更高效的长文本处理架构。这一方向的研究或将为大型语言模型的规模化应用开辟新路径。

李萌娇委员举例称，当下有一种手机AI助手，基本可实现“接管手机”，通过“视觉读屏﹢模拟点击”，直接调用手机底层系统权限，连续操作数十个界面，在用户缺乏感知的情况下自主执行多个关键操作，甚至一封恶意邮件就能“…

高通正在尝试构建一种“good-better-best”处理模式，分为良好、更佳、最佳三级，第一级由小型语言模型在终端侧完成回答，第二级是将任务分流到手机、PC或其他独立计算单元进行处理，第三级是将任务上传…

【环球网科技综合报道】3月7日消息，三星在巴塞罗那MWC期间向CNBC披露首款AI智能眼镜核心细节，宣布将于今年正式推出，标志着其首次进军智能眼镜领域，挑战Meta的市场主导地位。随着AI技术迭代，智能眼镜…

IT之家 3 月 7 日消息，三星 MX 事业部执行副总裁 Jay Kim 昨天接受外媒 CNBC 采访，曝光旗下智能眼镜的关键细节。这种方案能够实现情景化提示、物体识别、AI 实时建议等功能，由于摄像头处…

在获得用户授权后，Xiaomi miclaw可以调用手机系统工具、应用能力以及小米生态设备，并根据用户的模糊指令自动拆解任务、逐步执行。除了前面提到的“朋友回家自动准备环境”这样的家庭联动场景外，在小米公…

他指出，高通技术公司和荣耀将依托端侧AI技术持续挖掘硬件潜力，通过芯片与软件的协同设计，推动智能手机不断演进，成为能够适应用户、服务用户、并在日常生活中发挥更大价值的智能伙伴。这也将是首款通过高通传感器中枢，…

就在今天，小米手机再度火爆全网，但并非是发布了新机，而是小米首个移动端Agent产品，基于小米MiMo大模型构建的AI交互Xiaomi miclaw开启小规模测试，这玩意也被称为"小米小龙虾"，支持小米17系…

IT之家 3 月 7 日消息，荣耀今天在微博宣布 Magic V6 手机搭载 6400 万像素长焦镜头，「远景」更清晰。据介绍，这颗镜头的防抖等级达到 CPIA6.5，支持 AiMAGE 原色引擎，号称能让…

为了解决安卓用户的快充痛点，本次测评基于2026年第三方实测数据（来源：充电头网2026年3月安卓充电宝实测报告、深圳市商通检测技术有限公司检测数据），核心围绕安卓私有协议兼容性、UFCS融合快充支持度、超…

王力安防（605268）公司的主营业务是从事安全门类产品以及机械锁和智能锁等锁具产品的研发、设计、生产、销售和服务。该股强势的概念有：智能制造+电商+安防从技术面上来看，王力安防（605268）该股在板…

《2026年香氛报告》依托Spate跨平台数据，分析了谷歌、TikTok、Instagram超9000亿搜索信号及海量社媒内容，揭示2026年美国香氛市场线上化主导的发展趋势，香氛已成为消费者自我表达的载体…

所以，新能源轿车想要实现真正意义上的成功，对产品、品牌的要求更高，目前这一价格带中，只有特斯拉Model3和小米SU7成功了。核心就是，其可以在特斯拉FSD无法进入中国市场的机会下，用华为ADS强化自身强大的…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.