滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI优化器“双面性”：大模型预训练利器，为何成机器人训练“绊脚石”？

时间：2026-05-30 07:00:40 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在机器学习领域，优化器如同训练系统的“指挥棒”，直接影响模型性能。近期，由多所高校与企业联合完成的一项研究，针对优化器在不同场景下的表现展开深入探索，并提出一种名为Pion的新型优化器，为解决特定训练难题提供了新思路。

长期以来，AdamW优化器凭借对每个参数独立自适应调整的策略，在机器学习训练中占据主导地位。这种策略类似工厂里每个小调节旋钮根据自身情况转动，灵活却存在局限。近年来，矩阵感知优化器崭露头角，其中Muon优化器备受关注。它不再孤立看待每个参数，而是将权重矩阵视为整体，利用矩阵几何结构决定更新方向。通过“Newton–Schulz迭代”操作，Muon把梯度矩阵的奇异值统一调整为相同大小，实现“均匀谱白化”，在大语言模型预训练阶段成效显著，能助力模型充分探索参数空间，在多项任务上超越AdamW。

然而，研究团队发现，Muon的这一策略在机器人视觉 - 语言 - 动作模型（VLA）训练以及带有可验证奖励的强化学习（RLVR）场景中问题频出。在VLA模型训练里，这类模型通常由视觉编码器、语言主干和动作头三个模块组成。研究发现，三个模块训练时产生的梯度内在复杂度差异巨大。用“有效秩”衡量，视觉模块梯度有效秩高，信息分散在众多方向；语言模块居中；动作头梯度有效秩极低，信息集中在少数方向。Muon的均匀白化操作，如同将只有几个重要频道、其余为弱噪声的信号，与几百个频道信号同等放大，导致动作头有用信号被噪声淹没。在LIBERO Object机器人基准测试中，动作头使用Muon训练成功率仅82.2%，低于AdamW的93.6%。虽有Low - rank Muon改进方案，通过奇异值分解找出重要方向更新，能将成功率提高到97%，但计算成本高昂，训练时间增加约15倍，实际应用受限。

在RLVR场景中，问题同样严峻。RLVR旨在通过模型与可自动验证答案的题目互动提升推理能力，如数学题、编程题。其梯度信噪比远低于普通监督微调，信号稀疏且操作引入更多噪声。Muon的均匀白化在低信噪比环境下如同灾难，让噪声主导更新方向。在Qwen3 - 1.7B模型于MATH数学题的GRPO强化学习训练中，使用Muon训练模型精度从开始就下滑，最终趋近于零，而AdamW能稳定提升精度。Muon将注意力机制权重矩阵整体处理，忽视预训练中不同注意力头形成的异质性，破坏了有益结构。

为解决这些问题，研究团队提出Pion优化器。其核心是对“Newton–Schulz迭代”进行创新设计，将NS迭代分为“促进 + 抑制”两个阶段。“促进”阶段用精心设计的多项式提升所有奇异值，让较弱方向有机会通过筛选；“抑制”阶段用另一多项式将小奇异值压向0，大奇异值锚定在1，形成高通滤波效果，保留大奇异值代表的重要信号，压制小奇异值代表的噪声。两个阶段多项式系数通过数学约束严格推导，整个迭代总步数固定为5步，与Muon相同，计算成本一致。

针对RLVR场景，Pion还引入“按头处理”模式。处理注意力层权重矩阵时，先沿注意力头维度切分矩阵，对每个小块独立运行高通NS迭代后再拼回。实验表明，该模式能根据每个头实际情况差异化更新，保留预训练建立的异质性结构，且额外代价可忽略不计。

在模拟机器人环境测试中，研究团队在LIBERO和LIBERO - Plus两个基准测试套件上，用两种不同架构VLA模型验证Pion效果。在VLA - Adapter模型上，Pion在多个任务成功率上均超过Muon和AdamW，且收敛速度更快。在VLANeXt模型于更具挑战性的LIBERO - Plus测试中，Pion在所有扰动类别下成功率最高，对分布变化鲁棒性更好。具体案例中，Pion训练模型完成任务更干净利落，无碰撞等问题。

真实机器人测试中，研究团队用Franka Research 3机械臂在DROID硬件平台验证Pion。使用π0.5 VLA骨干模型微调后，在三个抓取放置任务评估中，Pion平均成功率达85.6%，远超AdamW的31.1%和Muon的38.9%，且在各任务中均表现优异，训练步效率更高。

在推理强化学习测试中，研究团队用Qwen3 - 1.7B和Qwen3 - 4B模型，分别采用GRPO和GMPO算法，在MATH和GSM8K数据集训练，共8个测试设置。Muon在所有设置中表现崩溃，精度接近零；AdamW能稳定训练；Pion收敛速度更快，且训练过程梯度信噪比始终高于AdamW。“反向消融”实验中，Low - pass Muon反向过滤失败，进一步证明Pion正向高通过滤的有效性。

消融实验进一步揭示Pion工作机制。与LRMuon比较，Pion在性能上更优，且计算成本低；按头模式与整体模式在VLA任务上效果相近，在RLVR任务中按头模式更重要；不同模块分配不同优化器组合实验表明，Pion优势在于精准适配动作头梯度低秩结构。不过，研究团队也指出，Pion不适合大语言模型预训练，因其梯度通常高秩，Pion高通过滤会丢弃信息。如何让优化器自适应调整，在不同训练阶段发挥最佳效果，是未来待探索的问题。

更多>同类资讯

移动云模型服务平台：聚合多元模型与智能调度，引领智算服务新潮流

作为中国移动布局AI产业、推进智算服务普惠化的核心载体，移动云模型服务平台目前已构建出涵盖海量模型聚合、灵活调用能力、行业智能体服务、智能路由降本、全链路安全管控的全生命周期模型服务体系，能够打破AI大模型…

06-24

中国移动闪耀2026MWC上海展：以通信算力智能融合，开启数智新未来

此外，AI+量子保密通信展出了网络、平台、产品三层全栈能力，已在国防、政务、能源、金融等领域落地；5G-A赋能行业数智化展区呈现了全栈自研的专网体系与“中移百灵”无源物联网系统，实现毫秒级确定性传输和百米级…

06-24

68岁孙正义推迟退休：再干10-15年，全力押注AI

06-24

荣耀定义 Agentic OS：终端将从“应用容器”走向“智能体舞台”

06-24

亚信卫星互联网、Physical AI、Token产品亮相2026MWC上海

06-24

微信AI“小微”实测：功能亮眼却谨慎前行，15年前的预言照进现实？

06-24

新安股份对标国际加速终端化转型，国产替代与新兴赛道共筑成长新篇

06-24

马云旗下云锋新创入股峥研软件核心管理层变动注册资本提升

06-24

Counterpoint预测：2026年GenAI手机占比升至45%，高端市场或成主导

06-24

政企面临AI时代漏洞大爆发，360推出“倚天屠龙”智能体安全体系

“自己的漏洞，必须自己先看见。”在 ISC.AI 2026 第十四届互联网安全大会上，360集团创始人周鸿祎表示，Mythos 的出现正在推动网络攻防从“人的速度”进入“机器速度”，政企单位防御窗口被大幅压缩。面对AI自动化攻击带来的新挑战，360现场披露漏洞挖掘智能体“图龙锋

06-24

豆包专业版正式上线：办公能力升级，阶梯定价68元起还有学生特惠

06-24

360纳米Work亮相ISC，周鸿祎透露新一代AI工作平台

6月24日，由360集团主办的互联网安全大会（ISC）在北京国家会议中心开幕。360集团创始人周鸿祎在《从大模型到百亿智能体时代Al进化新路径》主题演讲中，对外介绍了360旗下新一代AI工作平台纳米Work。周鸿祎表示，AI正从能回答问题走向能上手干活，纳米Work要让智能体真

06-24

映泰发布EdgeComp MS-NAT5000：小体积边缘AI系统，搭载NVIDIA强芯算力惊人

06-24

特斯拉车机语音交互迎本土化升级：豆包大模型接入，操控体验更智能

06-24

智平方郭彦东：类脑智能等成方向，技术与场景互促助机器人产业腾飞

06-24

点击查看更多 +

全站最新

墨水屏护眼新体验，科大讯飞阅读器：让阅读更舒适更环保更智能

沈阳至广州汽车托运如何选？看资质运力服务口碑，百联运车成靠谱之选

7月1日起两项电车新国标实施，电池安全要求升级保障出行

轮端高温报警别慌张！三步操作指南助您安全化解风险

比亚迪斩获国际大奖，闪充领航新丝路，全球布局彰显中国智造实力

从达沃斯出发，岚图汽车以场景体验为笔，绘就中国新能源高端出海新画卷

热门内容

本栏最新

Counterpoint预测：2026年GenAI手机占比升至45%，高端市场或成主导

豆包专业版正式上线：办公能力升级，阶梯定价68元起还有学生特惠

米哈游论文探索：100个AI智能体在虚拟世界开启十年“人生”新旅程

中国工程院院士李骏：2026年自动驾驶安全监管迎拐点，迈入Safety Case新阶段

从30秒造车到托起大飞机重庆“智造天团”以硬核实力书写中国式现代化新篇

火山引擎FORCE大会：豆包2.1 Pro与Seedance 2.5登场，国产AI模型再攀高峰

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.