阿里巴巴集团Qwen Pilot团队在国际学习表征会议(ICLR)上发表的最新研究,彻底颠覆了人们对人工智能训练过程的传统认知。这项编号为arXiv:2603.22446v1的论文显示,在强化学习训练大语言模型的过程中,真正推动性能提升的改变仅发生在极少数关键位置,占比不足2%。这一发现犹如在AI领域投下一颗重磅炸弹,引发了学术界和产业界的广泛关注。
研究团队通过精密的数学工具——Jensen-Shannon散度,对训练前后模型在每个词汇位置的变化程度进行了量化分析。结果显示,在SimpleRL训练方法下,超过98%的词汇位置几乎未发生任何改变;即便在使用DAPO训练方法时,也有超过83%的位置保持稳定。这种极度稀疏的变化模式,与人们普遍认为的"强化学习会均匀提升模型所有部分"的观念形成鲜明对比。
进一步的分析揭示了这些关键变化的位置偏好。在生成的文本序列中,变化主要集中在开头和结尾部分。开头位置的改变对应着高层次决策的修正,类似于学生在构思文章时调整整体思路;而结尾位置的变化则主要涉及答案格式和终止行为的优化,如同学生学会更规范的结论写法。不同训练方法展现出不同的变化模式:约束较少的DAPO方法会产生更广泛的分布变化,但强度相对温和;而约束更严格的SimpleRL方法则将更新集中在更少的词汇分布上,但变化更加显著。
研究团队还发现,变化程度与模型不确定性之间存在密切关联。在模型原本就很确定该选择什么词汇的位置,强化学习几乎不会进行调整;而在模型拿不准的高熵位置,强化学习则更倾向于进行修正。这种选择性修正机制,使得强化学习能够像精准的外科手术一样,只在最需要的地方进行干预。
词汇类型的偏好分析带来了另一个意外发现。在高散度位置(发生较大变化的位置),更多出现的是常见功能词、推理相关术语以及某些方程片段;而在低散度位置,占主导地位的则是数字、运算符和数学表达式的结构化组件。然而,同一个词汇在不同上下文中可能表现出完全不同的变化倾向,这表明决定变化的关键是词汇在特定推理轨迹中的角色,而非词汇本身的语义。
为了验证这些稀疏变化的实际作用,研究团队设计了一个巧妙的交叉采样实验。他们将强化学习模型在关键位置的词汇选择"移植"到基础模型的生成过程中,结果令人震惊:仅替换不到4%的词汇,就能将基础模型在AIME 2024测试中的准确率从约8%提升到超过25%;在AIME 2025测试中,仅替换约1.53%的词汇,就将准确率从5%提升到超过14%。反向实验同样证明,替换约5%的强化学习词汇选择,就能让强化学习模型的性能迅速退化到基础模型水平。
深入分析强化学习的改进机制发现,它主要通过重新排序现有候选词汇来工作,而非引入全新词汇。即使在发生重大变化的位置,基础模型和强化学习模型的候选词汇仍然保持高度重叠。约30%的强化学习top-1词汇在基础模型中已经排名第一,超过80%的DAPO top-1词汇和90%的SimpleRL top-1词汇都在基础模型的top-3范围内。这表明强化学习主要是在一个相对较小的高质量候选集合内进行精细调整。
训练过程的演化模式分析揭示了另一个有趣现象:分布变化在训练过程中变得越来越集中在少数词汇上。大多数词汇保持相对稳定,而变化主要集中在一个逐渐缩小但影响力不断增强的子集中。这种逐渐聚焦的特性表明,模型在探索阶段会尝试各种调整,但最终会收敛到一个稳定的关键位置集合上。
基于这些发现,研究团队探索了散度加权优势函数的应用潜力。通过设计高KL提升和低KL提升两种加权策略,他们在实验中成功在多个数据集上带来了性能提升。在AIME 2024测试中,低KL提升将准确率从33.61%提升到35.90%,高KL提升提升到36.74%;在AIME 2025测试中,两种方法都取得了类似的改进。
这项研究不仅为理解AI学习机制提供了全新视角,也为开发更高效的训练方法指明了方向。它提示我们,未来的AI训练可能不需要追求全面改进,而应该专注于识别和优化那些真正关键的决策点。这种精准训练策略不仅能提高效率,还能让我们更好地理解和控制AI系统的行为,最终为用户带来更精准、高效的AI产品和服务。












