滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

Thinking Machines Lab新研究：模块流形为大模型训练戴“安全锁”，稳定高效新思路

时间：2025-09-28 12:27:24 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在大模型训练领域，如何有效管理权重、避免数值异常成为关键挑战。Thinking Machines Lab提出的“模块流形”理论为这一难题提供了创新性解决方案，将传统的事后数值修正转变为事前的约束优化，为大模型训练开辟了新路径。

训练大型神经网络如同精密操作，需严格控制权重、激活值和梯度等关键参数的数值范围。任何参数的过度膨胀或萎缩都可能引发数值溢出，导致训练失败。当前主流方法包括使用Layer Norm技术归一化层输出，以及通过Muon优化器等工具对梯度更新进行谱归一化处理，这些手段旨在维持参数的数值稳定。

研究团队提出更深入的解决方案：将权重张量约束在特定子流形上，并据此设计优化算法。这种“预防式”方法通过初始参数设置确保训练稳定性，使模型具有更强的可解释性。流形优化的核心在于将参数限制在局部平坦的曲面上，通过切空间优化实现精确控制。

切空间作为流形上某点的局部平坦区域，是实施优化的关键场所。以三维球面为例，其切平面构成优化操作的基准面。传统方法在每步优化后强制投影参数回流形，但可能导致实际位移与学习率脱节。研究团队提出直接在切空间进行优化，使学习率能准确反映参数的实际移动距离。

距离度量方式的选择直接影响优化方向。研究采用欧几里得距离作为基准，同时探索其他度量标准。通过数学建模，将流形约束下的最优更新方向转化为带约束的优化问题。以超球面为例，最优更新方向需同时满足切平面约束和半径约束，这一过程可通过拉格朗日乘数法精确求解。

具体操作中，最优更新包含三个步骤：首先将梯度投影到切空间，去除与当前点同方向的径向分量；其次对投影结果进行归一化处理；最后乘以学习率得到更新方向。这种“回缩映射”机制确保参数始终保持在流形约束范围内。

不同流形选择和距离度量组合可衍生出多种优化算法。研究团队特别关注Transformer权重矩阵的优化，提出基于Stiefel流形的约束方法。该流形要求所有奇异值均为1，通过奇异值分解可直观理解矩阵对输入向量的拉伸效应。配合谱范数作为距离函数，有效限制权重更新的最大和最小效应。

结合Stiefel流形约束和谱范数度量，研究团队开发出Muon优化器的流形版本。通过凸优化问题建模和对偶上升法求解，实现了参数更新的精确控制。实验验证表明，该算法能有效维持参数稳定性，防止数值异常。

当扩展至多层神经网络时，研究提出“模块流形”理论。该理论通过追踪网络输出的Lipschitz敏感性，指导各层学习率的合理分配。流形约束为这种敏感性分析提供了精确框架，使不同层之间的参数更新保持协调，避免因层间交互导致的训练不稳定。

更多>同类资讯

苹果自研多模态AI模型Manzano：混合分词器架构，解码器三版本支持多分辨率

09-28

2030年AI显卡市场：NVIDIA份额67%领跑，AMD、博通竞逐新格局

09-28

OpenAI推出GDPval评估法：AI在多领域接近专家水平，Claude表现亮眼

有趣的是，在 GDPval 上，OpenAI 大方地承认了 Claude 的领先地位：Claude Opus 4.1 是该数据集中表现最佳的模型，尤其在美观性（例如文档格式、幻灯片布局）方面表现出色，该模型…

09-28

AI赋能地图：出行规划从“幻想”到“伙伴”的跨越之旅

09-28

京东以产业为基深耕AI，未来三年绘就万亿人工智能生态蓝图

09-28

阿里云3800亿AI基建布局加速，产业链核心伙伴迎来发展新机遇

09-28

东南欧代表探访中国：科技创新赋能发展，乡村蝶变见证成就

09-28

李开复：AI Agent浪潮来袭，企业数智化转型核心引擎已启动

李开复表示，当企业不再为模型买单，⽽是为“结果”与“价值”付费时，AI创造的价值将从降本转向增效。沈鹏飞向记者表示，大型企业面对大量客户群体，更倾向于提供标准化产品，尽管在浅层合作和交付层面看似没有问题，但…

09-28

安徽90后博士领衔，优艾智合冲刺港股IPO，成移动操作机器人领跑者

今年4月，优艾智合执行董事兼首席战略官梅婉箐在深圳具身智能产业化发展座谈会上接受21世纪经济报道记者采访时指出，过去公司基于工业场景积累了丰富的经验，尤其是在半导体工业场景深耕近7年，“当前公司基于客户的应…

09-28

AI浪潮下“端到端”变革来袭阿里云发力构建大数据AI闭环加速产业落地

09-28

展会盛景映“数智”活力，中国数字经济引领全球合作新篇章

09-28

斯坦福AI新突破：三步循环法助力计算机“理解”世界并持续进化

09-28

乌得勒支大学新突破：AI解锁换位思考技能，读懂人类思维多样性

09-28

Meta团队IGPO算法革新：为AI大模型装上“填空推理”智慧引擎

09-28

清华、剑桥、伊利诺伊团队融合扩散模型，为AI语音识别开启并行处理新路径

09-28

点击查看更多 +

全站最新

‍雷军透露小米17 Pro Max多门店缺货，小米17全系开售5分钟创销量新纪录‍

雷军年度演讲再引热议：高端化之路，是“改弦更张”还是“终章绝响”？

雷军年度演讲再引热议，小米高端化路在何方？叙事转变或成关键转折

雷军提前3个月达成2025年健身百次目标，此前直言控制体重是企业家必修课

高效记录新选择：科大讯飞AI录音笔SR702星火版，职场学习好帮手

马自达EZ-60携个性低价入场，国产新能源市场迎“搅局者”，个性或成新王牌

热门内容

本栏最新

第22届东博会AI元素亮眼：数字智能体引路机器人炫技展风采

AI云竞争下半场：华为以超节点、企业Agent等破局，谁能领跑产业？

2025网安周：每日互动刘宇谈AI时代，知识安全成关键，共筑数字新未来

中国大模型DeepSeek首登Nature封面，R1训练成本仅约208万引关注

华为全联接大会2025启幕，发布全球最强算力超节点与集群

有鹿机器人+连合直租：以智能租赁模式，开启高端场景清洁新未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.