滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

阿里巴巴研究揭秘：AI训练中极少数关键位置驱动模型性能飞跃式提升

时间：2026-04-03 11:43:03 来源：快讯编辑：快讯 IP：北京 发表评论无障碍通道

阿里巴巴集团Qwen Pilot团队在国际学习表征会议（ICLR）上发表的最新研究，彻底颠覆了人们对人工智能训练过程的传统认知。这项编号为arXiv:2603.22446v1的论文显示，在强化学习训练大语言模型的过程中，真正推动性能提升的改变仅发生在极少数关键位置，占比不足2%。这一发现犹如在AI领域投下一颗重磅炸弹，引发了学术界和产业界的广泛关注。

研究团队通过精密的数学工具——Jensen-Shannon散度，对训练前后模型在每个词汇位置的变化程度进行了量化分析。结果显示，在SimpleRL训练方法下，超过98%的词汇位置几乎未发生任何改变；即便在使用DAPO训练方法时，也有超过83%的位置保持稳定。这种极度稀疏的变化模式，与人们普遍认为的"强化学习会均匀提升模型所有部分"的观念形成鲜明对比。

进一步的分析揭示了这些关键变化的位置偏好。在生成的文本序列中，变化主要集中在开头和结尾部分。开头位置的改变对应着高层次决策的修正，类似于学生在构思文章时调整整体思路；而结尾位置的变化则主要涉及答案格式和终止行为的优化，如同学生学会更规范的结论写法。不同训练方法展现出不同的变化模式：约束较少的DAPO方法会产生更广泛的分布变化，但强度相对温和；而约束更严格的SimpleRL方法则将更新集中在更少的词汇分布上，但变化更加显著。

研究团队还发现，变化程度与模型不确定性之间存在密切关联。在模型原本就很确定该选择什么词汇的位置，强化学习几乎不会进行调整；而在模型拿不准的高熵位置，强化学习则更倾向于进行修正。这种选择性修正机制，使得强化学习能够像精准的外科手术一样，只在最需要的地方进行干预。

词汇类型的偏好分析带来了另一个意外发现。在高散度位置（发生较大变化的位置），更多出现的是常见功能词、推理相关术语以及某些方程片段；而在低散度位置，占主导地位的则是数字、运算符和数学表达式的结构化组件。然而，同一个词汇在不同上下文中可能表现出完全不同的变化倾向，这表明决定变化的关键是词汇在特定推理轨迹中的角色，而非词汇本身的语义。

为了验证这些稀疏变化的实际作用，研究团队设计了一个巧妙的交叉采样实验。他们将强化学习模型在关键位置的词汇选择"移植"到基础模型的生成过程中，结果令人震惊：仅替换不到4%的词汇，就能将基础模型在AIME 2024测试中的准确率从约8%提升到超过25%；在AIME 2025测试中，仅替换约1.53%的词汇，就将准确率从5%提升到超过14%。反向实验同样证明，替换约5%的强化学习词汇选择，就能让强化学习模型的性能迅速退化到基础模型水平。

深入分析强化学习的改进机制发现，它主要通过重新排序现有候选词汇来工作，而非引入全新词汇。即使在发生重大变化的位置，基础模型和强化学习模型的候选词汇仍然保持高度重叠。约30%的强化学习top-1词汇在基础模型中已经排名第一，超过80%的DAPO top-1词汇和90%的SimpleRL top-1词汇都在基础模型的top-3范围内。这表明强化学习主要是在一个相对较小的高质量候选集合内进行精细调整。

训练过程的演化模式分析揭示了另一个有趣现象：分布变化在训练过程中变得越来越集中在少数词汇上。大多数词汇保持相对稳定，而变化主要集中在一个逐渐缩小但影响力不断增强的子集中。这种逐渐聚焦的特性表明，模型在探索阶段会尝试各种调整，但最终会收敛到一个稳定的关键位置集合上。

基于这些发现，研究团队探索了散度加权优势函数的应用潜力。通过设计高KL提升和低KL提升两种加权策略，他们在实验中成功在多个数据集上带来了性能提升。在AIME 2024测试中，低KL提升将准确率从33.61%提升到35.90%，高KL提升提升到36.74%；在AIME 2025测试中，两种方法都取得了类似的改进。

这项研究不仅为理解AI学习机制提供了全新视角，也为开发更高效的训练方法指明了方向。它提示我们，未来的AI训练可能不需要追求全面改进，而应该专注于识别和优化那些真正关键的决策点。这种精准训练策略不仅能提高效率，还能让我们更好地理解和控制AI系统的行为，最终为用户带来更精准、高效的AI产品和服务。

更多>同类资讯

鸿蒙智行享界新越野车谍照流出方正设计+鸿蒙座舱拓展全新细分市场

05-07

联想掌上游戏机G02上线：RK3326芯片加持，4.5英寸屏畅玩近20个平台老游戏

05-07

前大厂员工跳槽大疆：高强度工作下，双休成最珍贵“确定感”

05-07

安卓17 QPR1 Beta 2更新来袭：UI细节优化，多类Bug集中修复

05-07

谷歌紧急行动：推出补丁解决三星Galaxy XR头显内存泄漏难题

05-07

续航赛道持续发力！荣耀四款“万毫”新机在路上，最高容量达12000mAh

05-07

5月19日拯救者Y70新机来袭！2K猎速屏配8000mAh电池，游戏体验再升级

05-07

AI时代管理新趋势：爱彼迎等企业CEO直言“纯管理者”或将失去立足之地

05-07

抖音“星光商城”亮相：聊天场景添新付费玩法培养用户消费习惯

05-07

安卓17设计不走苹果风！谷歌辟谣液态玻璃传闻另辟蹊径寻平衡

05-07

SpaceX与Anthropic携手：Colossus 1超22万颗英伟达GPU助力AI算力升级

05-07

东方甄选大主播离职风波后，首家线下体验店试水零售新赛道

05-07

从学术火种到产业燎原：可重构数据流架构三十年突围与崛起

05-07

OpenAI前CTO作证：奥特曼言行不一致高管不信任公司存崩塌风险

05-07

千寻智能获马云雷军资本加持，牵手博世，具身智能赛道加速领跑

05-07

点击查看更多 +

全站最新

千寻智能获马云雷军资本青睐，牵手博世，具身智能赛道如何领跑？

11万家商场闭店：不是实体商业末路，而是创新转型迎来新契机

赛力斯4月销量出炉：新能源汽车同比增5.22%，研发与市场双轮驱动

长城汽车4月产销双增，海外与新能源业务成增长新引擎

小米入局增程SUV市场，“寻天”昆仑车顶可升起，20万起售或搅动新风云

小米全新子品牌“SKYNOMAD”曝光！“昆仑”增程SUV谍照来袭预计下半年发布

热门内容

本栏最新

鸿蒙智行享界新越野车谍照流出方正设计+鸿蒙座舱拓展全新细分市场

前大厂员工跳槽大疆：高强度工作下，双休成最珍贵“确定感”

千寻智能获马云雷军资本青睐，牵手博世，具身智能赛道如何领跑？

小米入局增程SUV市场，“寻天”昆仑车顶可升起，20万起售或搅动新风云

小米全新子品牌“SKYNOMAD”曝光！“昆仑”增程SUV谍照来袭预计下半年发布

小米“昆仑”增程SUV谍照流出，激光雷达配天地门，直指理想问界市场

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.