在机器学习领域,优化器如同训练系统的“指挥棒”,直接影响模型性能。近期,由多所高校与企业联合完成的一项研究,针对优化器在不同场景下的表现展开深入探索,并提出一种名为Pion的新型优化器,为解决特定训练难题提供了新思路。
长期以来,AdamW优化器凭借对每个参数独立自适应调整的策略,在机器学习训练中占据主导地位。这种策略类似工厂里每个小调节旋钮根据自身情况转动,灵活却存在局限。近年来,矩阵感知优化器崭露头角,其中Muon优化器备受关注。它不再孤立看待每个参数,而是将权重矩阵视为整体,利用矩阵几何结构决定更新方向。通过“Newton–Schulz迭代”操作,Muon把梯度矩阵的奇异值统一调整为相同大小,实现“均匀谱白化”,在大语言模型预训练阶段成效显著,能助力模型充分探索参数空间,在多项任务上超越AdamW。
然而,研究团队发现,Muon的这一策略在机器人视觉 - 语言 - 动作模型(VLA)训练以及带有可验证奖励的强化学习(RLVR)场景中问题频出。在VLA模型训练里,这类模型通常由视觉编码器、语言主干和动作头三个模块组成。研究发现,三个模块训练时产生的梯度内在复杂度差异巨大。用“有效秩”衡量,视觉模块梯度有效秩高,信息分散在众多方向;语言模块居中;动作头梯度有效秩极低,信息集中在少数方向。Muon的均匀白化操作,如同将只有几个重要频道、其余为弱噪声的信号,与几百个频道信号同等放大,导致动作头有用信号被噪声淹没。在LIBERO Object机器人基准测试中,动作头使用Muon训练成功率仅82.2%,低于AdamW的93.6%。虽有Low - rank Muon改进方案,通过奇异值分解找出重要方向更新,能将成功率提高到97%,但计算成本高昂,训练时间增加约15倍,实际应用受限。
在RLVR场景中,问题同样严峻。RLVR旨在通过模型与可自动验证答案的题目互动提升推理能力,如数学题、编程题。其梯度信噪比远低于普通监督微调,信号稀疏且操作引入更多噪声。Muon的均匀白化在低信噪比环境下如同灾难,让噪声主导更新方向。在Qwen3 - 1.7B模型于MATH数学题的GRPO强化学习训练中,使用Muon训练模型精度从开始就下滑,最终趋近于零,而AdamW能稳定提升精度。Muon将注意力机制权重矩阵整体处理,忽视预训练中不同注意力头形成的异质性,破坏了有益结构。
为解决这些问题,研究团队提出Pion优化器。其核心是对“Newton–Schulz迭代”进行创新设计,将NS迭代分为“促进 + 抑制”两个阶段。“促进”阶段用精心设计的多项式提升所有奇异值,让较弱方向有机会通过筛选;“抑制”阶段用另一多项式将小奇异值压向0,大奇异值锚定在1,形成高通滤波效果,保留大奇异值代表的重要信号,压制小奇异值代表的噪声。两个阶段多项式系数通过数学约束严格推导,整个迭代总步数固定为5步,与Muon相同,计算成本一致。
针对RLVR场景,Pion还引入“按头处理”模式。处理注意力层权重矩阵时,先沿注意力头维度切分矩阵,对每个小块独立运行高通NS迭代后再拼回。实验表明,该模式能根据每个头实际情况差异化更新,保留预训练建立的异质性结构,且额外代价可忽略不计。
在模拟机器人环境测试中,研究团队在LIBERO和LIBERO - Plus两个基准测试套件上,用两种不同架构VLA模型验证Pion效果。在VLA - Adapter模型上,Pion在多个任务成功率上均超过Muon和AdamW,且收敛速度更快。在VLANeXt模型于更具挑战性的LIBERO - Plus测试中,Pion在所有扰动类别下成功率最高,对分布变化鲁棒性更好。具体案例中,Pion训练模型完成任务更干净利落,无碰撞等问题。
真实机器人测试中,研究团队用Franka Research 3机械臂在DROID硬件平台验证Pion。使用π0.5 VLA骨干模型微调后,在三个抓取放置任务评估中,Pion平均成功率达85.6%,远超AdamW的31.1%和Muon的38.9%,且在各任务中均表现优异,训练步效率更高。
在推理强化学习测试中,研究团队用Qwen3 - 1.7B和Qwen3 - 4B模型,分别采用GRPO和GMPO算法,在MATH和GSM8K数据集训练,共8个测试设置。Muon在所有设置中表现崩溃,精度接近零;AdamW能稳定训练;Pion收敛速度更快,且训练过程梯度信噪比始终高于AdamW。“反向消融”实验中,Low - pass Muon反向过滤失败,进一步证明Pion正向高通过滤的有效性。
消融实验进一步揭示Pion工作机制。与LRMuon比较,Pion在性能上更优,且计算成本低;按头模式与整体模式在VLA任务上效果相近,在RLVR任务中按头模式更重要;不同模块分配不同优化器组合实验表明,Pion优势在于精准适配动作头梯度低秩结构。不过,研究团队也指出,Pion不适合大语言模型预训练,因其梯度通常高秩,Pion高通过滤会丢弃信息。如何让优化器自适应调整,在不同训练阶段发挥最佳效果,是未来待探索的问题。










