ITBear旗下自媒体矩阵:

宾大新研究:为AI模型各层“量身定制”优化器,训练效果显著提升

   时间:2026-05-26 22:16:43 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

深度学习模型的训练离不开优化器,但几十年来,主导该领域的Adam及其变体始终存在一个根本性缺陷:它们将所有参数视为无差别的数字序列,却忽略了不同层参数在几何结构上的天然差异。宾夕法尼亚大学的一项研究通过引入对称性分析框架,为优化器设计开辟了新路径,相关成果以预印本形式发布于arXiv平台。

研究团队以乐队训练作比:传统优化器如同让钢琴手、吉他手和鼓手共用同一本练习册,而新方法则主张根据乐器特性定制训练方案。这种直觉性洞察被转化为严谨的数学理论,并在多个大语言模型预训练实验中得到验证。实验显示,针对不同参数矩阵的对称性设计专用优化器,能带来稳定且可重现的性能提升。

神经网络权重矩阵具有"双正交不变性"——其数学本质不依赖于坐标系的选择。但Adam等传统优化器在更新参数时,会因坐标系旋转产生截然不同的训练轨迹,这种现象被研究团队定义为"几何不匹配"。以地图类比,尽管A城到B城的实际路径未变,但旋转地图会导致路径的坐标表示发生改变,Adam的更新方式本质上依赖于这种人为的坐标命名。

针对这一缺陷,谱优化器类方法应运而生。以Muon算法为例,它通过提取梯度矩阵的"正交极因子"(即奇异值分解后的UV?矩阵)来确定更新方向,使更新规则与坐标系选择无关。然而,这类方法在词嵌入矩阵等特殊结构上表现不佳,研究揭示其根源在于不同参数矩阵具有截然不同的对称性。

词嵌入矩阵的行(对应词表中的词)具有置换对称性——打乱行顺序不影响模型功能;而列(对应隐藏特征)则具有正交变换对称性。这种"左置换右正交"(LPRO)对称性要求优化器采用行范数更新或右谱更新等专用规则。实验表明,在6亿参数密集模型上,这类方法相比AdamW基线可将验证损失降低0.03;在词表更大的35亿参数模型中,收益扩大至0.06。

混合专家(MoE)模型的路由器矩阵则展现出另一种对称性:专家编号可互换,且给所有专家的logit值加常数不影响softmax结果。这要求优化器先对梯度做中心化处理(消除共享分量),再采用左谱更新或行范数更新。在稀疏MoE模型实验中,这类方法使训练损失尖峰出现的频率降低40%,训练稳定性显著提升。

研究团队将动量机制与极因子更新相结合,提出了多个实用算法。RowNormM通过行范数归一化动量矩阵实现更新;RightPolarGradM则先计算动量的右Gram矩阵逆平方根,再右乘到动量上。工程实现上,他们采用Polar Express算法的多项式系数和Gram Newton-Schulz迭代来计算逆平方根,确保数值稳定性。

关于动量与极因子的结合顺序,研究证实"先动量后极因子"方案更优。梯度的指数移动平均具有与梯度相同的等变性,因此对动量取极因子能保持更新方向的正确变换。而"先极因子后动量"方案会因极因子的非线性特性破坏等变性,导致更新方向包含更多噪声。

该研究不仅提出具体算法,更构建了系统性的设计原则:根据参数矩阵的对称群选择匹配的优化器。普通线性层采用双正交等变的谱优化器;词嵌入矩阵使用LPRO等变更新;SwiGLU MLP的门控投影和上投影采用行感知更新,下投影则对其转置使用同类更新;MoE路由器采用中心化后的行范数或左谱更新。这种层次化设计确保每个参数类都接受与其几何结构相匹配的更新。

从理论视角,该框架统一解释了现有谱优化器的共性——它们都是双正交等变的谱算子,区别仅在于奇异值变换函数的选择。Muon对应将所有奇异值压为1的函数,这等价于对谱范数做最速下降。相比之下,行归一化等方法仅具有单边或置换等变性,适合特定参数类但不适用于普通矩阵层。

实验验证覆盖了从6亿到35亿参数的密集与稀疏模型,使用100亿token的FineWeb-Edu数据集。结果显示,词表越大,等变更新相对于AdamW的收益越显著。这与理论预期一致:大词表矩阵的梯度中低维特征子空间的结构更重要,坐标方向更新更易与这种结构产生错配。

尽管研究存在训练步数未达计算最优规模、非元素级优化器带来工程挑战等局限,但其提供的思维方式具有深远意义:随着模型架构日益多样化,用同一优化器处理所有参数的做法将愈发低效。未来优化器设计需与架构创新协同,针对不同参数类的对称性定制更新规则,这或许将成为突破模型性能瓶颈的关键方向。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version