ITBear旗下自媒体矩阵:

Kimi重构大模型“基石”残差连接:相同算力下模型效率显著提升引关注

   时间:2026-03-20 03:01:31 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,模型性能的竞争从未停歇。当算力与数据条件相当,为何部分模型能脱颖而出?月之暗面(Moonshot AI)用一项颠覆性技术给出了答案——通过重构大模型底层架构,实现了训练效率与模型效果的双重突破。

3月16日,Kimi团队发布技术报告《Attention Residuals》,将自2015年沿用至今的残差连接(Residual Connections)进行彻底革新。实验数据显示,在相同算力条件下,采用新架构训练的模型性能,达到传统基线模型1.25倍算力训练的效果。这一成果引发硅谷AI圈高度关注,多位顶尖学者公开评价其为"深度学习范式升级的里程碑"。

Kimi团队的解决方案充满巧思:通过数学建模发现,深度网络的信息丢失与RNN的时间遗忘机制存在结构相似性。基于此,他们将横向处理序列的注意力机制"旋转"90度,应用于纵向的深度维度。新架构中,每个网络层通过动态查询向量,主动筛选前序层的关键信息,实现信息流动的精准控制。为解决大规模训练的内存瓶颈,团队还设计了Block AttnRes方案,将网络分块处理,在保持性能的同时将推理延迟增幅控制在2%以内。

实证效果令人瞩目:在GPQA-Diamond科学推理任务中,新架构使模型准确率提升7.5%;数学与代码生成任务分别获得3.6%和3.1%的性能增益。这种泛化能力的提升,源于底层架构对信息流动方式的根本性改变——每层网络都能根据任务需求,动态调整信息提取策略,形成更高效的知识表征。

该团队创始人在近期技术峰会上强调:"当行业普遍聚焦模型规模扩张时,我们选择重构底层优化机制。这就像建造摩天大楼,与其不断增加楼层高度,不如重新设计承重结构。"这种"向下深耕"的技术路线,为突破当前AI发展的Scaling Law瓶颈提供了新思路。随着研究论文的公开,全球多个顶尖实验室已开始复现相关实验,一场关于模型底层架构的革新正在悄然兴起。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version