在人工智能领域,一项由牛津大学刘世伟教授领衔的国际合作研究近日引起了广泛关注。该研究联合了西湖大学、埃默里大学、大连理工大学及萨里大学等多家顶尖学府,其突破性成果已于2025年7月发表于人工智能领域的权威期刊上。论文题为《大型语言模型中的深度困境》,感兴趣的读者可访问arXiv:2502.05795v2获取全文。
该研究深入探讨了当前最先进的大型语言模型(例如ChatGPT、Claude等)在训练过程中的一个奇特现象:模型层次越深,后续层级的重要性反而越小。为了形象地说明这一问题,研究团队将其比喻为一座智慧大楼,其中每一层本应各司其职,共同为最终智能输出贡献力量。然而,他们惊人地发现,大楼的上半部分“工匠”几乎在消极怠工,即便移除这些层级,模型的整体表现也几乎不受影响。
为了验证这一现象的普遍性,研究团队选取了当前流行的多个大型语言模型家族作为测试对象,包括Llama、Mistral、DeepSeek和Qwen系列。他们巧妙地设计了一系列实验,通过逐一移除模型的不同层级,观察并记录模型性能的变化。实验结果令人震惊:移除深层的多个层级后,模型的表现几乎未受影响,甚至在某些情况下略有提升;相反,移除浅层的任何一层都会导致模型性能显著下降。
研究团队将这一奇特现象命名为“深度困境”。这一名称形象地揭示了当前大型语言模型训练中的一个根本矛盾:尽管我们投入了大量计算资源来训练更深的模型,期望获得更强的能力,但实际上,越深的层级对模型的贡献越小,仿佛被某种无形的困境所束缚。
为了深入理解这一现象,研究团队进一步分析了层与层之间表示的相似性。他们利用角度距离这一数学工具来测量不同层级的输出相似性。结果表明,在深层网络中,相邻层级的输出几乎完全相同,这意味着这些层级只是在重复前面层级的工作,没有产生任何新的有用信息。
研究团队还对比了两种不同的网络架构设计:现代大型语言模型普遍采用的“前置层归一化”(Pre-LN)与较早模型使用的“后置层归一化”(Post-LN)。通过对比实验,他们发现采用Pre-LN的模型更容易出现深度困境现象,而采用Post-LN的模型则表现出相反的趋势:深层比浅层更重要。这一发现为理解深度困境的根源提供了重要线索。
为了揭示深度困境的理论根源,研究团队深入探讨了Pre-LN架构的工作原理。他们发现,在Pre-LN架构中,随着网络层数的增加,输出的方差会呈指数级增长。这种增长导致深层网络的梯度趋近于单位矩阵,使得这些层级几乎变成了“透明层”,没有进行任何有意义的转换。为了直观理解这一概念,研究团队用烹饪过程进行了类比:如果后续步骤只是简单的“保温”操作,那么无论进行多少步骤,最终的味道都不会有太大变化。
面对这一棘手问题,研究团队提出了一个简洁而有效的解决方案:层归一化缩放(LNS)。这一方法的核心思想是通过给每一层的输出乘以一个与层深度相关的缩放因子来控制方差的增长。缩放因子等于当前层深度的平方根的倒数,即1/√l,其中l为层的索引。这种设计确保了每一层都能发挥其应有的作用,避免了深层网络的“偷懒”现象。
为了验证LNS的有效性,研究团队进行了大规模的实验验证。实验涵盖了从小型模型到大型模型的各种规模,结果显示LNS在所有测试规模上都显著优于传统的归一化方法。特别是在工业级别的训练规模下,LNS仍然表现出显著的性能提升。
研究团队还进行了下游任务的微调实验。他们使用Commonsense170K数据集在八个不同的推理任务上测试了经过LNS预训练的模型。结果显示,使用LNS预训练的模型在微调后的表现也明显优于传统方法。这表明LNS不仅改善了预训练效果,还增强了模型的通用学习能力。
为了深入理解LNS的工作机制,研究团队还进行了详细的分析实验。他们验证了LNS确实能够有效控制输出方差,并分析了LNS对层间表示多样性的影响。实验结果表明,LNS成功地让每一层都发挥了应有的作用,提高了模型的整体性能。
LNS的实现既简单又巧妙。它不需要引入额外的可学习参数或调整任何超参数,只需在每个层归一化操作的输出后乘以相应的缩放因子即可。这种设计既保持了Pre-LN的训练稳定性优势,又解决了深层网络效果不佳的问题。
值得注意的是,研究团队还发现LNS与某些初始化策略可能存在冲突。他们建议在使用LNS时移除缩放初始化以获得最佳性能提升。研究团队还将LNS应用到视觉Transformer中进行了初步探索,发现LNS的具体实现可能需要根据不同的模型架构和任务进行调整。
这项研究的实际应用价值巨大。当前训练大型语言模型需要消耗大量计算资源和能源,而深度困境意味着其中相当一部分投资实际上是浪费的。LNS的引入能够提高训练效率和最终性能,降低计算成本。
对于工业界来说,这意味着在相同的计算预算下可以获得更好的模型性能,或者在保持性能不变的情况下显著降低计算成本。考虑到大型语言模型的训练成本高昂,这种效率提升的经济价值不言而喻。
对于研究界来说,这项工作开启了重新审视现有架构设计的新视角。它表明,即使是被广泛采用的设计选择也可能存在根本性缺陷,需要更深入的理论分析来发现和解决。研究团队的工作为未来模型架构的设计提供了重要指导,强调了在追求更深、更大的模型时,必须仔细考虑深度对模型行为的影响。