一项由多国科研机构联合开展的研究,为提升扩散语言模型的推理能力提供了全新思路。这项研究针对传统强化学习训练效率低下的问题,提出了一种名为d-OPSD的在线自蒸馏框架,在四项推理任务中实现了训练步数减少90%的突破性进展,相关成果以预印本形式发布,论文编号为arXiv:2606.18195。
传统强化学习训练扩散语言模型时,面临"稀疏奖励"的困境。模型需要完成整个推理过程后才能获得对错反馈,就像学生完成整张试卷后才能得知成绩,却无法知晓具体错题位置。这种训练方式导致模型需要海量尝试才能逐步收敛,例如在GSM8K数学题上,强化学习方法需要7700次梯度更新才能达到79.8%的准确率。
研究团队提出的d-OPSD框架,通过让模型同时扮演学生和教师双重角色,创造性地解决了这一难题。该框架的核心创新在于"未来信息利用机制":学生模型先生成完整答案,教师模型在训练过程中可"窥见"学生答案中的部分内容,从而在每个去噪步骤提供精准指导。这种设计犹如让时间旅行者带着未来知识指导过去的自己,既保持了训练的在线性,又避免了依赖静态标准答案的局限性。
实验数据显示,d-OPSD在四项推理任务中均展现出显著优势。在MATH500竞赛数学题上,该方法仅需100次训练步数就达到37.2%的准确率,而强化学习方法需要6600次才能达到相同水平。在4×4数独任务中,d-OPSD以23.9%的准确率大幅领先强化学习的18.4%,且训练步数减少至425次,仅为后者的1/9。这种效率提升源于步级别监督机制——教师模型在每个去噪步骤的特定位置提供指导,而非等待最终结果。
研究团队深入分析了传统自蒸馏方法失效的原因。当采用将标准答案拼接在输入前的传统方式时,教师与学生模型的词汇预测重叠率高达99%,意味着教师未提供任何新增信息。而d-OPSD通过动态利用学生自身生成的答案,使重叠率维持在合理区间,确保了知识传递的有效性。实验表明,教师模型即使仅"窥见"25%的未来信息,其答题准确率仍比学生高出13.5个百分点。
为保障训练稳定性,研究团队引入了多项工程优化。通过固定教师模型参数避免监督信号波动,采用逐词裁剪防止梯度异常,以及只在正确生成上训练等策略,使模型在Sudoku任务上的准确率稳定提升至81%,远超未优化的69.37%。输入拼接技巧的采用,更使内存占用降低80%,为大规模模型训练提供了可能。
尽管d-OPSD在效率上取得突破,但研究也揭示了其局限性。在Countdown算术任务中,模型在175步训练后出现性能崩溃现象,准确率从峰值37.9%骤降至个位数。研究人员推测这与反向KL散度的"模式寻求"特性有关——模型过度聚焦特定解题模式,丧失了应对多样情况的能力。这一发现为后续研究指明了方向,即需要开发更稳健的训练目标函数。
该研究对扩散语言模型的发展具有重要启示。传统方法往往将不同类型模型的训练策略简单套用,而d-OPSD证明针对模型特性设计专属训练框架的重要性。对于资源有限的研发机构,这种方法提供了在计算预算内快速提升模型性能的有效路径。目前,研究团队已公开代码和模型权重,供全球研究者复现和改进这一成果。











