中国科学技术大学与阿里巴巴通义实验室联合开展的研究,为大语言模型训练领域带来了突破性进展。该研究聚焦于强化学习微调过程中模型输出多样性的变化规律,通过建立数学理论框架,揭示了模型在训练中逐渐丧失创造性的深层机制,并提出了有效控制这一现象的创新方法。
在训练大语言模型时,研究人员发现一个普遍现象:随着训练深入,模型会从最初给出多样化答案逐渐转变为只提供最安全、最常见的回答。这种变化类似于学生从富有想象力转变为只会背诵标准答案的过程。研究团队通过系统分析发现,模型在训练中会不自觉地偏向产生高概率的"安全"词汇,因为这类回答更容易获得训练奖励。然而,这种倾向若不加控制,将导致模型失去探索新解决方案的能力,最终陷入创造力匮乏的困境。
为了精确描述这种创造性变化的过程,研究团队构建了以"判别分数"为核心的理论体系。这个概念如同创造力指示器,能够量化每个词汇选择对模型整体创造性的影响。通过数学推导,团队发现了熵变化与判别分数之间的关键关系:熵的变化等于负的判别分数乘以更新强度。这一发现为理解模型训练中的创造性波动提供了量化工具。
基于理论分析,研究团队开发了两种实用的熵控制方法。第一种是批次归一化裁剪技术,该方法通过计算训练批次中所有词汇的判别分数,识别并过滤那些会对创造性产生极端影响的异常词汇。第二种方法则更为精细,它不仅考虑词汇在单个批次中的表现,还分析其在整个词汇表中的相对位置,从而更准确地识别破坏创造性平衡的词汇。这两种方法就像为模型训练安装了调节阀,既能防止创造性过度丧失,又能提升模型的实际性能。
实验验证显示,这些创新方法在多个领域都取得了显著成效。在数学推理任务中,使用新方法训练的模型在AIME24和AIME25等挑战性数据集上的准确率分别提升了2.81%和0.93%。更重要的是,这些模型在解题过程中展现出更强的探索能力和多样化的解题路径,避免了传统训练方法导致的"全有或全无"的两极分化表现模式。
研究团队进一步将现有训练方法归类为三大类:裁剪机制、熵正则化和概率加权更新。通过理论分析,他们揭示了这些方法之所以有效的科学原理。例如,裁剪机制实际上是在防止低概率词汇对熵产生过度影响,而熵正则化方法则是通过奖励有助于保持创造性的词汇选择来维持模型多样性。这种统一的理论视角不仅解释了现有方法的共性,也为未来开发更高效的训练策略提供了指导原则。
在数学推理任务的实验中,新方法的优势得到了充分体现。传统训练方法会导致模型在简单问题上表现优异,但在中等难度问题上表现不佳。而使用熵控制方法训练的模型则展现出更均衡的能力分布,能够在不同难度层次的问题上都保持相对稳定的表现。这种改进不仅体现在量化指标上,更反映在模型生成内容的质量上——它们会尝试多种解题路径,展现出更强的逻辑性和创造性。
该研究的理论框架具有广泛的适用性。无论是在小型模型还是大型模型上,无论是处理数学问题还是编程任务,熵动力学的基本原理都保持一致。这表明可能存在支配AI学习过程的基础性数学规律,就像热力学定律支配物理世界的能量转换一样。研究团队还指出,这一发现对AI安全和可控性研究具有重要意义,因为过度训练可能导致模型在面对新型问题时缺乏必要的灵活性。
从实用角度来看,这项研究为AI训练提供了立即可用的改进方案。与需要大量计算资源的架构创新相比,熵控制方法的计算开销相对较小,可以轻松集成到现有训练流程中。这使得工业界能够快速应用这些技术,提升AI系统的性能和可靠性。更重要的是,这种基于理论分析的方法学为AI研究开辟了新的路径,使研究人员能够基于数学原理预测和设计改进方案,而非仅仅依赖经验试错。
对于普通用户而言,这项研究意味着未来的AI助手将变得更加智能和实用。它们不再局限于提供标准答案,而是能够在安全性和创造性之间找到平衡点,在帮助学生解决复杂问题或协助程序员开发创新方案时展现出更出色的表现。该研究通过论文编号arXiv:2602.03392v1公开了完整的技术细节,为感兴趣的研究人员提供了深入探索的机会。









