ITBear旗下自媒体矩阵:

DDL架构革新来袭!普林斯顿与UCLA联手,开启残差网络新纪元

   时间:2026-01-03 01:23:45 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

深度学习领域正迎来一场架构层面的重大革新。自2015年ResNet提出残差连接以来,这种"加法捷径"设计支撑了深度神经网络的发展,但近期两项突破性研究指出,这种固定模式正成为制约模型性能的瓶颈。

传统残差网络通过将输入直接叠加到输出层,有效解决了梯度消失问题,使网络深度突破百层成为可能。然而这种设计导致神经网络只能进行单调的信息累加,无法实现特征遗忘、状态重置或符号反转。斯坦福大学教授Christopher Manning指出,这种"只加不减"的特性,使得模型在处理复杂动态系统时显得笨拙。

普林斯顿大学与加州大学洛杉矶分校联合提出的Deep Delta Learning(DDL)架构,首次将可学习的状态更新机制引入残差连接。该研究用rank-1线性算子替代恒等映射,通过引入关键标量参数β,使网络能够自主决定特征的去留。当β接近0时,系统保持原有残差连接特性;当β趋近1时,网络会主动清除特定特征方向;当β达到2时,甚至能实现特征符号反转。

这种动态调整机制赋予神经网络三项核心能力:选择性遗忘无用特征、精准重置中间状态、反向表达对立关系。实验数据显示,DDL架构在保持训练稳定性的同时,显著提升了模型对复杂动态系统的建模能力。研究团队特别指出,负特征值的引入打破了传统残差网络的表达限制,为处理振荡、周期性模式提供了新可能。

几乎同时,DeepSeek团队提出的mHC流形约束超连接架构,也从不同角度对残差连接进行改良。该设计通过引入流形约束,使网络在保持深层稳定性的同时,获得更灵活的特征表达能力。两种方案虽技术路径不同,但都指向同一个结论:残差连接需要从固定设计转变为可优化组件。

DDL架构的创新性体现在其数学设计的简洁性上。通过将隐藏状态视为矩阵而非向量,研究团队构建了包含记忆矩阵的增量残差块。核心更新公式中,Delta算子产生的谱结构异常清晰:d-1个特征值恒为1,仅有一个特征值由β参数控制。这种设计使得单个标量就能精确调控特定特征方向的命运。

参与研究的学者透露,这项工作最初源于对传统残差网络噪声累积问题的观察。在深层网络中,无用信息会像滚雪球般累积,而DDL的遗忘机制能有效清理中间表示。当门控参数完全打开时,网络甚至能进入全新的表达空间,这种特性在处理需要状态反转的任务时表现尤为突出。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version