滚动资讯

当前位置：首页 > 资讯 > 数码极客 > 正文内容

宾大新研究：为AI模型各层“量身定制”优化器，训练效果显著提升

时间：2026-05-26 22:16:43 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

深度学习模型的训练离不开优化器，但几十年来，主导该领域的Adam及其变体始终存在一个根本性缺陷：它们将所有参数视为无差别的数字序列，却忽略了不同层参数在几何结构上的天然差异。宾夕法尼亚大学的一项研究通过引入对称性分析框架，为优化器设计开辟了新路径，相关成果以预印本形式发布于arXiv平台。

研究团队以乐队训练作比：传统优化器如同让钢琴手、吉他手和鼓手共用同一本练习册，而新方法则主张根据乐器特性定制训练方案。这种直觉性洞察被转化为严谨的数学理论，并在多个大语言模型预训练实验中得到验证。实验显示，针对不同参数矩阵的对称性设计专用优化器，能带来稳定且可重现的性能提升。

神经网络权重矩阵具有"双正交不变性"——其数学本质不依赖于坐标系的选择。但Adam等传统优化器在更新参数时，会因坐标系旋转产生截然不同的训练轨迹，这种现象被研究团队定义为"几何不匹配"。以地图类比，尽管A城到B城的实际路径未变，但旋转地图会导致路径的坐标表示发生改变，Adam的更新方式本质上依赖于这种人为的坐标命名。

针对这一缺陷，谱优化器类方法应运而生。以Muon算法为例，它通过提取梯度矩阵的"正交极因子"（即奇异值分解后的UV?矩阵）来确定更新方向，使更新规则与坐标系选择无关。然而，这类方法在词嵌入矩阵等特殊结构上表现不佳，研究揭示其根源在于不同参数矩阵具有截然不同的对称性。

词嵌入矩阵的行（对应词表中的词）具有置换对称性——打乱行顺序不影响模型功能；而列（对应隐藏特征）则具有正交变换对称性。这种"左置换右正交"（LPRO）对称性要求优化器采用行范数更新或右谱更新等专用规则。实验表明，在6亿参数密集模型上，这类方法相比AdamW基线可将验证损失降低0.03；在词表更大的35亿参数模型中，收益扩大至0.06。

混合专家（MoE）模型的路由器矩阵则展现出另一种对称性：专家编号可互换，且给所有专家的logit值加常数不影响softmax结果。这要求优化器先对梯度做中心化处理（消除共享分量），再采用左谱更新或行范数更新。在稀疏MoE模型实验中，这类方法使训练损失尖峰出现的频率降低40%，训练稳定性显著提升。

研究团队将动量机制与极因子更新相结合，提出了多个实用算法。RowNormM通过行范数归一化动量矩阵实现更新；RightPolarGradM则先计算动量的右Gram矩阵逆平方根，再右乘到动量上。工程实现上，他们采用Polar Express算法的多项式系数和Gram Newton-Schulz迭代来计算逆平方根，确保数值稳定性。

关于动量与极因子的结合顺序，研究证实"先动量后极因子"方案更优。梯度的指数移动平均具有与梯度相同的等变性，因此对动量取极因子能保持更新方向的正确变换。而"先极因子后动量"方案会因极因子的非线性特性破坏等变性，导致更新方向包含更多噪声。

该研究不仅提出具体算法，更构建了系统性的设计原则：根据参数矩阵的对称群选择匹配的优化器。普通线性层采用双正交等变的谱优化器；词嵌入矩阵使用LPRO等变更新；SwiGLU MLP的门控投影和上投影采用行感知更新，下投影则对其转置使用同类更新；MoE路由器采用中心化后的行范数或左谱更新。这种层次化设计确保每个参数类都接受与其几何结构相匹配的更新。

从理论视角，该框架统一解释了现有谱优化器的共性——它们都是双正交等变的谱算子，区别仅在于奇异值变换函数的选择。Muon对应将所有奇异值压为1的函数，这等价于对谱范数做最速下降。相比之下，行归一化等方法仅具有单边或置换等变性，适合特定参数类但不适用于普通矩阵层。

实验验证覆盖了从6亿到35亿参数的密集与稀疏模型，使用100亿token的FineWeb-Edu数据集。结果显示，词表越大，等变更新相对于AdamW的收益越显著。这与理论预期一致：大词表矩阵的梯度中低维特征子空间的结构更重要，坐标方向更新更易与这种结构产生错配。

尽管研究存在训练步数未达计算最优规模、非元素级优化器带来工程挑战等局限，但其提供的思维方式具有深远意义：随着模型架构日益多样化，用同一优化器处理所有参数的做法将愈发低效。未来优化器设计需与架构创新协同，针对不同参数类的对称性定制更新规则，这或许将成为突破模型性能瓶颈的关键方向。

更多>同类资讯

太空视角下的蓝星之美：航天员与舱外镜头共绘山河画卷

06-27

AYANEO Pocket MICRO 2掌机来袭：3.5英寸原彩屏+骁龙定制芯，1599元起售

06-27

大爆炸后18亿年：6个星系在红移4.0处快速合并孕育早期宇宙巨无霸

随后天文学家借助韦布太空望远镜是进一步观测，发现是由至少 6 个星系组成的复杂系统，随后命名其整体为 TGSSJ1530+1049。 IT之家注：原星系团是现代大型星系团在早期宇宙中的前身形态，通常由多个正在…

06-26

王志勤：以军用技术为基，推动硬科技民用化释放新动能

06-26

罗马尼亚Audiobyte Super HUB固件升级：新增Diretta协议，开启高保真音频串流新体验

它的设计目标是通过软件手段最小化并平均化接收端——协议桥（Target）的处理负载，使电流消耗保持平稳，从而减少内部噪声。作为网络音频接收端，无缝接入支持 Diretta 协议的播放系统；在现有网络环境下，…

06-26

九号公司链博会秀实力：三大品类新品齐发，创新驱动全球短交通新未来

06-26

2026年光伏层压机选型指南：宇电自动化以技术品质赢得行业口碑

深耕光伏设备行业多年，宇电自动化始终专注太阳能层压机的研发、生产与迭代升级，不盲目参与低端市场价格内卷，而是聚焦产品核心性能优化与工艺革新。秦皇岛宇电自动化以技术为核心、以品质为依托，凭借稳定的设备性能与扎…

06-26

欣旺达动力科技注册资本增至132亿业务多元发展再获资本助力

天眼查App显示，近日，欣旺达动力科技股份有限公司发生工商变更，注册资本由约95.7亿人民币增至约132亿人民币，增幅约38%。该公司成立于2014年10月，法定代表人为王明旺，经营范围包括软件开发及销售、…

06-26

荣耀X80 Pro Max来袭：万级高亮屏配11000mAh大电池，6月26日开售在即

其中亮度方面，最高已突破到万级，轻松应对户外强光、反光等。续航方面，越来越多新机突破到万毫安大电池，从入门机到高端机均有，带来更持久的续航表现，助力新机户外使用。荣耀新机已推出，机型为荣耀X80Pro …

06-26

红魔游戏平板5 Pro携PC模拟器登场，自研引擎助力畅玩3A大作

IT之家 6 月 25 日消息，红魔游戏平板 5 Pro 今日官宣搭载第五代骁龙 8 至尊版移动平台 + 自研电竞芯片红芯 R4，升级红魔CUBE 擎天游戏引擎 3.0、升级 2K 144Hz 超分超帧并发…

06-26

通用汽车2027款GMC西拉皮卡登场：全新V8引擎加身配置精简内外焕新

06-26

广东韶关：从粤北小城到AI风口，传统工业如何搭上英伟达快车？

06-25

70千瓦移动发电车租赁指南：精准匹配场景需求，保障临时供电安全高效

原动机将燃料的化学能转化为机械能，其转速的稳定性通过调速系统进行精准调节，这是保障输出电流频率恒定的首要前提。在临时活动、小型工程维护或作为应急预案等场合，恰如其分的功率匹配能有效避免设备长期低负载运行造成的…

06-25

自动雨量站：太阳能驱动全天候监测，精准数据助力多领域防灾减灾

自动雨量站是基于物联网技术打造的现代化智能降水监测设备，整体由光学雨量传感器、数据采集器、太阳能供电系统及立式支架组成，结构集成简洁、安装部署便捷，适配户外长期野外监测场景。设备采用太阳能供电模式，可实现全天…

06-25

VGN蜻蜓3大师版GT无线电竞鼠标评测：传感器升级，手感与性能再上新台阶

VGN蜻蜓3大师版鼠标我们之前也有过评测，这款鼠标可以说是VGN多年来最具里程碑意义的型号，全新的轻量化内骨架设计，在整体结构平衡了配重的基础上横向提供了两侧6点位支撑，按键盖板也采用了金属轴结构末端弹簧预压…

06-25

点击查看更多 +

全站最新

全固态电池来袭：续航充电双突破，量产普及在望，出行焦虑将成历史？

尊界S800携MPV双旗舰登场，中国豪车以硬核科技与工艺冲击超豪华市场

鸿蒙智行尊界新车登场，L3+级自动驾驶“硬件预埋”抢先布局未来

openJiuwen亮相开放原子开源生态大会携手伙伴共筑AgentOS繁荣生态新未来

国产超豪华MPV新标杆！尊界V800亮相，配置拉满能否重塑市场格局？

长城H10亮相：方盒子设计搭配1.5T插混系统，家庭轻越野市场新选择

热门内容

本栏最新

通用汽车2027款GMC西拉皮卡登场：全新V8引擎加身配置精简内外焕新

全新斯柯达Peaq来袭：大空间长续航，科技配置助力电动出行新体验

奔驰VLE300首批实车登场，混动MPV领域再添实力强劲全能之选

腾势N8L闪充版上市！31.98万起售，800V高压闪充+3秒级加速引关注

腾势N8L闪充版上市，31.98万起售！800V高压闪充+三电机，续航充电双升级

腾势N8L闪充版上市！31.98万起售，800V高压闪充+三电机加速3秒级

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.