ITBear旗下自媒体矩阵:

NeurIPS 2025新突破:华南理工EVODiff重构扩散模型推理,实现质量效率双飞跃

   时间:2025-11-23 23:40:30 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能生成内容(AIGC)领域,扩散概率生成模型凭借其卓越的生成能力占据主导地位,从文生图到文生视频,扩散模型的应用不断拓展。然而,推理速度慢、训练与推理差异大以及优化困难等问题,始终制约着其更广泛的应用。近日,一项突破性研究为解决这些难题带来了全新思路。

传统扩散模型生成高质量内容往往需要数十甚至上百步迭代,从纯噪声中逐步恢复图像。这带来了两个核心矛盾:一是推理效率与生成质量的难以平衡,减少迭代步数会导致画质下降,而追求高质量又需忍受漫长生成时间;二是理论与实践的脱节,为加速推理,业界提出多种基于微分方程(ODE)的求解器,但这些方法多为数值近似技巧,缺乏对扩散过程本质的解释,且许多加速算法依赖参考轨迹优化,增加了计算开销并限制了模型泛化能力。

针对这些问题,一项被NeurIPS 2025接收的论文提出全新解法。研究团队跳出传统数值求解思维,从信息感知推理视角出发,将去噪过程重构为实时熵减优化问题。该研究指出,扩散模型的前向扩散过程是向图像加噪,熵不断增加;反向去噪过程则是从混乱中恢复秩序,条件熵应不断降低。基于此,研究团队提出“免参考”的自适应方差优化框架——EVODiff。

在扩散模型社区,一直存在一个经验性共识:推理生成时,直接预测干净数据(Data Prediction)的参数化方案比预测噪声(Noise Prediction)的推理范式效果更好,尤其在低步数下更为显著。这一现象与MIT何恺明团队最新发布的JiT架构核心洞察不谋而合。何恺明团队从“流形假设”角度指出,自然数据位于低维流形,噪声弥漫于高维空间,神经网络直接预测干净数据比预测噪声更容易。而此次研究在数学层面为这一趋势提供了坚实理论支撑,首次严格证明“数据预测参数化”能更直接最小化重建误差,更有效降低条件熵。

为在迭代中更高效降低数据预测的条件熵,EVODiff回顾扩散模型高斯建模中条件熵与条件方差正相关的特点,即每一步推理中动态调整方差至最小,就能最快逼近真实图像。基于此,EVODiff构建“无参考”自适应优化框架,无需昂贵预计算参考轨迹,仅利用当前迭代步骤状态差异,通过计算开销极低的闭式解,动态实时计算最优方差控制参数,确保每一步朝最高效收敛路径前进。

EVODiff不仅是一个理论框架,更是一套可直接落地的实时指导算法。其核心特性显著:一是“免参考”的极致轻量化,与需预先计算高成本轨迹的方法不同,它依靠在线计算,利用当前迭代步骤状态差异动态优化方差,无额外训练成本和预处理开销;二是闭式解的极速计算,许多优化算法需复杂迭代求解,拖慢推理速度,而EVODiff推导出方差优化目标的闭式解,获取最优参数几乎不消耗计算资源,实验显示其在获得SOTA画质时,推理时间略快于DPM-Solver++;三是普适性,无论是像素空间传统扩散模型、隐空间扩散模型,还是不同噪声调度策略,EVODiff都能无缝适配并带来提升。

实验数据充分证明EVODiff的优越性。在CIFAR - 10(EDM模型)上,极低步数(NFE = 10)挑战下,基准方法DPM - Solver++的FID为5.10,EVODiff的FID达到2.78,错误率降低45.5%;在ImageNet - 256(ADM模型)高分辨率图像生成中,传统方法需20 NFE达到SOTA级画质,EVODiff仅需15 NFE,效率提升25%;在LSUN - Bedrooms(隐空间扩散模型)上,相比UniPC,EVODiff在5 NFE下FID分数提升43.4%,生成速度提升5.3%,表明其不仅适用于学术小模型,更能赋能Stable Diffusion等工业级大模型。

在视觉效果上,EVODiff提升更为直观。在文本生成图像任务中,低步数推理常导致图像结构崩坏,如生成扭曲肢体或模糊背景。以提示词“An astronaut riding a horse”(宇航员骑马)为例,竞品方法在低步数下马匹常出现“五条腿”等解剖学错误,宇航员与马融合不自然;而EVODiff生成的图像结构严谨,马匹四肢正常,光影过渡自然,展现极高语义对齐度和视觉连贯性。德国AI公司Mindverse专题报道指出,EVODiff在文本生成图像任务中,即使使用简单提示词,也能生成更自然、更一致、伪影更少的图像。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version