在大型语言模型训练领域,一项突破性研究为提升效率、降低成本带来了全新解决方案。香港某高校科研团队提出名为Mano的优化器,通过创新设计显著优化了大模型训练过程,在性能提升与资源消耗控制方面取得双重突破。
传统训练方法面临两大核心矛盾:既要处理参数间的复杂关联,又需控制计算资源消耗。当前主流的AdamW优化器如同逐题批改的教师,虽能处理单个参数却忽视整体结构;而Muon优化器虽尝试统一处理所有维度,却因丢失曲率信息导致优化效果受限。研究团队通过重构优化逻辑,创造性地将训练过程转化为动态几何探索,使模型参数在平滑数学表面自主寻找最优路径。
Mano的核心机制在于"旋转斜流形"设计,通过交替进行列向与行向归一化操作,实现多维参数空间的立体化探索。具体而言,该优化器在奇数训练轮次执行列方向归一化,偶数轮次切换至行方向,这种动态调整策略使模型能够从不同角度解析参数关系。实验数据显示,在LLaMA-350M模型训练中,Mano的收敛速度较Muon提升1.75倍,在1.3B参数规模下仍保持1.38倍的优势,且随着模型规模扩大,性能差距进一步拉大。
资源消耗控制方面,Mano展现出显著工程优势。其内存占用与SGD动量法相当,仅为AdamW的50%,在70B参数规模的LLaMA模型训练中,注意力层归一化耗时仅2.19毫秒,较Muon的110.79毫秒降低超98%。这种效率提升源于其避免复杂矩阵运算的设计,每次参数更新仅需11mn次浮点运算(m、n为矩阵维度),而Muon的Newton-Schulz迭代计算量呈指数级增长。
理论层面,研究团队证明Mano的交替归一化过程等价于Sinkhorn-Knopp迭代算法,可确保矩阵收敛至双随机矩阵,从而保证优化稳定性。频谱分析显示,该优化器在提升稀有方向更新幅度的同时,完整保留奇异值原始排序,这种结构化处理方式有效避免了Muon因白化操作导致的信息丢失。梯度稳定性测试进一步证实,Mano在相同动量系数下,梯度方差降低40%,信噪比提升25%,为持续优化提供可靠保障。
实际应用中,Mano展现出极强的适应性。其实现仅需设置学习率、动量系数和权重衰减三个参数,超参数调优复杂度低于AdamW。对于一维偏置参数,团队建议沿用AdamW优化,形成混合优化策略。研究团队还开发了高维张量版本,通过循环遍历各维度实现通用化处理,支持Transformer等复杂架构的参数优化。
与现有方法的对比实验揭示了Mano的独特价值:在训练初期,AdamW凭借自适应学习率实现快速收敛;中期Muon通过频谱归一化展现优势;而Mano在后期持续保持稳定下降趋势,最终模型性能超越两个基准优化器。这种训练阶段特异性优势,使其特别适用于需要深度优化的超大规模模型训练场景。
该研究重新激活了流形优化在深度学习领域的应用潜力。通过将经典数学理论与现代工程实践结合,团队证明适当改造的传统方法仍能解决前沿技术难题。这种研究范式为优化器设计提供了新思路:在追求算法创新的同时,深度挖掘现有理论的改造空间,往往能产生兼具理论美感与实用价值的解决方案。











