在人工智能视觉生成领域,扩散模型凭借其卓越的高保真数据生成能力,已成为图像合成、视频生成等跨模态任务的核心技术框架。然而,如何让预训练后的扩散模型高效适配具体应用场景,始终是制约技术落地的关键难题。近期,一项发表于国际顶级学术会议的研究提出创新解决方案,通过设计递归似然比优化器,为扩散模型后训练开辟了兼顾效率与性能的新路径。
当前扩散模型的后训练方法主要依赖强化学习与截断反向传播两类技术路线,但均存在显著缺陷。截断反向传播通过终止部分梯度计算降低内存消耗,却导致梯度估计出现结构性偏差,严重时模型会崩溃并生成纯噪声;强化学习虽能控制内存需求,但梯度估计方差过高,样本效率低下且训练收敛缓慢。实验数据显示,使用完整反向传播训练Stable Diffusion 1.4模型仅需50个时间步就消耗约1TB GPU内存,而现有优化方法难以在训练稳定性与生成质量间取得平衡。
研究团队提出的递归似然比优化器,通过重构扩散链计算图实现无偏且低方差的梯度估计。该技术包含三大核心模块:一阶估计模块在初始时间步直接反向传播奖励模型,充分利用结构信息避免精度损失;半阶优化模块引入长度可变的局部子链,通过随机选择起始位置捕捉多尺度视觉特征;零阶估计模块对剩余时间步采用参数扰动策略,确保无偏性同时降低计算开销。这种半阶梯度估计范式巧妙平衡了计算成本与优化效果。
局部子链长度h作为关键调控参数,直接影响内存消耗与梯度方差的关系。研究团队将h的取值问题转化为带内存约束的方差最小化优化,推导出理论最优解析解。实验表明,在30-40GB主流GPU内存环境下,h=2时既能捕捉扩散链关键尺度信息,又可将整体方差降至饱和区间。当h增至3或4时,单步训练时间呈指数级增长,但奖励分数提升幅度不足5%,验证了该参数选择的工程合理性。
理论分析证实,递归似然比估计器具有无偏性,并给出了方差边界与收敛速率保证。相较于传统方法,该技术既解决了截断反向传播的偏差问题,又克服了强化学习的高方差缺陷,在计算效率与优化性能间实现最优平衡。实验数据显示,在文本到图像生成任务中,基于Stable Diffusion 1.4的实验使ImageReward分数从32.90提升至76.55,较主流方法提升幅度达14%-47%。
在文本到视频生成任务的VBench基准测试中,该技术展现出显著优势。在主体一致性、运动流畅度等6项核心指标上,加权平均分达84.63,超越VideoCrafter、Pika等开源及商业模型。特别在动态程度指标上取得70.69分,较次优方案提升5.6%。研究团队还开发了扩散思维链提示词技术,通过分解原始提示词为多尺度指令,使半阶子链能精准定位生成缺陷的尺度特征,在手部生成等细粒度任务中实现突破性进展。











