一位年仅17岁的高中生以共同第一作者身份参与了一项突破性研究,将注意力机制引入深度神经网络的残差连接中,这项成果引发了科技界的广泛关注。该研究由Kimi团队完成,提出了名为Attention Residuals的创新技术,通过重新设计神经网络层间的信息传递方式,显著提升了模型训练效率。
这项技术突破面临的首要挑战是计算复杂度问题。在100层网络中,若对每层都进行全注意力计算,复杂度将呈平方级增长。为解决这一难题,研究团队开发了Block AttnRes方法,通过将连续层划分为块并在块内进行信息压缩,将计算复杂度从O(L²)降至O(L·B),其中B为块数且取值较小。
实验验证阶段,团队在自研的Kimi Linear 48B大模型上进行了测试。该模型采用线性注意力机制,激活参数为3B。结果显示,在保持推理延迟增加不到2%的前提下,训练效率提升了25%。在数学推理、代码生成和多语言理解等任务中,新模型均展现出持平或优于基线的性能表现。
这项研究的特别之处在于其实现方式的简洁性。Attention Residuals技术可直接替代传统残差连接,无需修改网络其他部分。研究团队将其视为"时间-深度对偶性"的具体应用,认为深度神经网络的层处理与循环神经网络的时间步处理在本质上都是对信息的迭代加工。
共同第一作者团队阵容引人注目。除17岁的陈广宇外,还包括旋转位置编码(RoPE)提出者苏剑林和Kimi Linear第一作者张宇。这位年轻的高中生作者通过黑客松活动进入AI领域,在硅谷实习期间参与了涉及144张H100显卡的探索性项目,其成长轨迹展现了非传统科研路径的可能性。
技术细节方面,Attention Residuals的实现包含三个关键步骤:首先生成可学习的伪查询向量,其次将所有前序层输出作为键值对,最后通过注意力机制进行加权聚合。工程优化方面,团队采用了缓存式流水线通信、序列分片预填充等技术进一步提升效率。






