斯坦福大学、清华大学、宾夕法尼亚大学及亚马逊前沿AI研究院联合发布了一项突破性研究,通过改进强化学习后训练技术,显著提升了AI图像生成模型的训练效率与生成质量。相关成果以预印本形式发布,论文编号为arXiv:2604.23380,代码已开源供全球研究者复现验证。
扩散模型作为当前主流的AI图像生成技术,其工作原理类似于逐步去除图像噪点,最终还原出清晰画面。然而,这类模型在生成复杂场景时仍存在缺陷,例如画面元素错位、文字渲染错误或与指令不符等问题。为此,研究人员探索在模型预训练后引入强化学习进行“精调”,通过奖励机制引导模型生成更符合人类审美的结果。但传统强化学习方法在扩散模型上应用时面临计算复杂度高的难题,导致训练效率低下且稳定性不足。
研究团队聚焦于扩散模型训练中的“概率难题”——由于生成过程涉及数十甚至上百步去噪操作,精确计算模型生成特定图像的概率在数学上几乎不可行。现有方法分为两类:一类将生成过程拆解为马尔可夫决策过程,通过精确计算每一步概率实现优化,但存在训练收敛慢、灵活性差等问题;另一类采用ELBO近似方法,虽实现简单却因方差过大导致训练不稳定,长期被主流研究忽视。
针对ELBO近似的缺陷,研究团队提出三项关键技术创新。首先,通过“组内共享时间步-噪声对”技术,确保同一文本提示生成的多张图片使用完全相同的时间步采样,消除随机性干扰;其次,采用“分层时间步采样”策略,将整个去噪过程划分为多个区间,每个区间选取一个时间步,保证采样均匀性;最后,引入“自适应损失权重”机制,对不同时间步的损失进行归一化处理,平衡梯度贡献。这些技术将ELBO方差的变异系数从0.230降至0.128,使训练信号得以清晰传递。
为防止梯度更新步幅过大导致模型偏离正确方向,研究团队还设计了三重保障机制:继承自PPO算法的“重要性比率截断”技术,通过限制概率比值范围防止单次更新过度;“KL散度惩罚”方法,利用行为策略作为参考模型,在保留早期能力的同时抑制过度优化;“优势软截断”策略,针对完全在线训练场景,通过双曲正切函数平滑极端优势值,避免梯度爆炸。这些技术可根据不同训练需求灵活组合使用。
在实验验证环节,研究团队选取FLUX.1-dev和Stable Diffusion 3.5 Medium两个主流模型进行测试。结果显示,V-GRPO算法在FLUX.1-dev上仅需150次迭代即达到MixGRPO 300次迭代的效果,训练速度提升2倍;在Stable Diffusion 3.5 Medium上,580次梯度更新即可实现传统方法1700次迭代的水准,效率提升近3倍。更引人注目的是,经过V-GRPO训练的模型在关闭分类器引导后仍能生成高质量图像,表明强化学习过程已隐式完成“引导蒸馏”,使模型具备内化的生成能力。
消融实验进一步验证了各项技术的有效性。在FLUX.1-dev模型上,移除任何一项方差降低技术都会导致训练崩溃;而在Stable Diffusion 3.5 Medium上,虽然单独技术缺失不影响稳定性,但三者协同作用时性能最佳。研究还发现,ELBO估算中使用的时间步-噪声对数量存在收益递减效应,4个采样点即可实现稳定训练,过多采样反而提升有限。
这项研究为AI图像生成领域提供了新的技术路径。通过优化ELBO近似方法,研究人员证明了简单技术经过工程改进后,其性能可超越复杂算法。对于普通用户而言,这意味着未来AI图像生成工具的训练成本将进一步降低,生成速度与质量持续提升,同时模型对复杂指令的理解能力也将显著增强。该研究的代码已在GitHub平台公开,研究者可自由下载运行以验证实验结果。










