ITBear旗下自媒体矩阵:

DeepSeek元旦发布新论文:mHC架构破解大规模训练难题,性能显著提升

   时间:2026-01-01 21:43:46 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来一项突破性进展,一种名为流形约束超连接(mHC)的新型神经网络架构正式亮相。该架构通过创新设计解决了传统超连接技术在模型训练中面临的数值不稳定难题,同时保持了性能提升优势,为大规模语言模型训练提供了更高效的解决方案。

传统Transformer架构采用的残差连接机制虽能保障信号稳定传输,但其信息通道宽度受限于隐藏层维度。近期出现的超连接技术通过扩展残差流宽度和多样化连接模式突破了这一限制,但新架构在训练过程中暴露出两个关键问题:连接矩阵自由学习导致的数值爆炸或消失现象,以及显存读写和通信成本随通道扩展成倍增加的"显存墙"困境。

研究团队提出的mHC架构通过多流并行机制重构残差连接空间,将传统单一残差流扩展为多流架构。其核心创新在于利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,确保信号传播过程中特征保持凸组合特性。这种数学约束使得信号范数在传播过程中保持稳定,从根本上解决了恒等映射属性被破坏引发的训练不稳定问题。

在基础设施优化层面,研究团队开发了三项关键技术:通过算子融合将多次矩阵运算整合为单一操作,减少内存带宽瓶颈;采用选择性重计算策略,在反向传播阶段动态重建中间激活值以降低内存压力;扩展DualPipe调度算法,实现通信与计算的高效重叠。这些优化措施使得mHC在扩展倍率达到4倍时,仅增加6.7%的训练时间开销。

实验验证环节,研究团队基于270亿参数规模的模型展开测试。对比结果显示,mHC架构在训练稳定性方面表现优异,最终损失值较基线模型降低0.021,梯度范数波动幅度显著减小。在8个下游基准测试中,mHC在零样本和少样本场景下均展现性能优势,特别是在复杂推理任务BBH和DROP上分别取得2.1%和2.3%的性能提升。

规模扩展实验进一步验证了架构的实用性。在30亿至270亿参数的跨规模测试中,mHC的性能优势随模型增大保持稳定,仅呈现轻微衰减。针对训练数据量的专项测试表明,30亿参数模型在处理1万亿token训练集时,性能提升曲线持续上扬,证明该架构能有效应对大规模数据训练需求。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version