在人工智能领域,一场关于神经网络架构创新的突破正引发广泛关注。DeepSeek团队近期发表的核心论文,提出了一种名为流形约束超连接(mHC)的新型架构,为解决大规模模型训练中的稳定性难题提供了新思路。这项研究不仅为硬件资源受限的中国AI企业开辟了新的发展路径,也与字节跳动此前在残差流优化方面的探索形成了技术呼应。
自2016年ResNet架构问世以来,残差连接凭借其独特的"捷径连接"设计,成为深度学习模型的骨架式结构。这种设计通过绕过非线性变换层,有效缓解了梯度消失或爆炸的问题,支撑起更深的模型结构。然而,长期以来,业界创新多集中在注意力机制、混合专家(MoE)等模块,残差流本身的技术演进相对缓慢,直至字节跳动在2024年推出超连接(HyperConnection)技术。
字节跳动的超连接技术通过拓宽残差流宽度、构建多路并行信号流,并引入流间交互学习机制,显著提升了模型的表达能力。但在规模化训练过程中,该技术暴露出信号发散的致命缺陷。DeepSeek的测试数据显示,在270亿参数模型的训练中,使用超连接架构的模型在约12000步训练后出现梯度范数剧烈波动,导致训练崩溃;更严重的是,信号强度在第60层膨胀至输入值的3000倍。
DeepSeek团队深入分析了这一问题的根源:超连接技术为追求更强的表达能力,放弃了残差连接原有的恒等映射约束。这种设计在小规模模型中可通过调参掩盖缺陷,但在大规模训练场景下,问题会被急剧放大。基于此,mHC架构提出了创新性解决方案——将可学习的变换矩阵约束在双重随机矩阵构成的流形空间上。
双重随机矩阵的数学特性为信号传播设立了"刚性预算":矩阵每行、每列元素之和均为1且非负,确保输出信号强度严格介于输入信号的最大最小值之间。这种约束机制从根本上杜绝了信号爆炸的可能。更关键的是,双重随机矩阵具有组合不变性,即使多层叠加仍能保持稳定。实验表明,在相同训练场景下,mHC架构的信号放大峰值仅为1.6倍,远低于超连接技术的3000倍。
为控制计算开销,研究团队采用Sinkhorn-Knopp迭代算法进行矩阵投影,仅需20轮迭代即可收敛,将额外训练成本控制在6.7%以内。针对硬件约束带来的系统级挑战,DeepSeek实施了三项关键优化:通过算子融合减少数据搬运;采用反向传播重计算技术以计算换内存;运用流水线并行优化掩盖通信延迟。这些优化将内存开销从随层数线性增长转化为可由模块大小控制的有界开销。
配合基于TileLang编写的混合精度内核(以bfloat16为主,float32保障关键精度),mHC架构实现了全参数规模下的稳定性能提升。测试数据显示,30亿至270亿参数模型搭载该架构后均表现优异:270亿参数模型在BIG-Bench Hard复杂推理任务上提升2.1%,在DROP阅读理解任务上提升2.3%。这些成果验证了mHC架构在保持模型性能的同时,显著提升了训练稳定性。
值得注意的是,DeepSeek选择通过arXiv、Hugging Face等开放平台发布研究成果,这种策略虽牺牲了部分传统学术声望,却换来了技术传播的速度与广度。当mHC架构的性能增益可量化、实现可复现时,全球AI实验室都面临新的技术选择:要么跟进类似技术路线,要么必须论证自身路径的优越性。这种开放模式加速了知识扩散,也形成了直接的技术竞争压力。
此前,DeepSeek的R1模型已引发推理模型研发热潮,而mHC架构的推出很可能推动残差流优化进入新的迭代周期。更深远的影响在于,这项研究向全球AI界传递了明确信号:在硬件资源受限的条件下,中国AI企业正通过数学创新和系统优化走出独特发展道路。这种"在约束中创新"的模式,正在重塑AI竞赛的技术格局。
随着业界对下一代旗舰模型的期待升温,mHC架构的工业化应用成效即将迎来关键检验。无论最终基准测试结果如何,这项研究已证明:AI技术的发展不只有"堆砌算力"这一条路径,硬件限制反而可能成为催生核心突破的催化剂。当技术创新回归数学本质,中国AI企业正在书写新的技术进化篇章。









