南洋理工大学S-Lab实验室近期发布的一项预印本研究,为提升AI图像生成模型的训练效率提供了新思路。该研究指出,现有扩散模型在训练过程中存在大量无效计算,并提出了名为“频谱强制”(Spectral Forcing)的解决方案。实验表明,该方法可在几乎不增加计算成本的前提下,显著提升模型性能并缩短训练时间。
扩散模型通过逐步去除图像噪声来学习生成清晰图像,其核心机制类似于将照片分解为噪点再反向还原。然而,研究团队发现,在训练的早期阶段,图像中的高频细节(如纹理、边缘)往往已被噪点完全覆盖,AI却仍在尝试从这些无意义信号中提取信息。这种“盲目努力”不仅浪费计算资源,还可能干扰模型对有效数据的学习。
为解决这一问题,研究团队设计了频谱强制技术。该技术通过动态调整低通滤镜的截止频率,在训练的不同阶段屏蔽不同范围的高频信息。具体而言,在训练初期,滤镜仅允许极低频信号通过;随着训练推进,截止频率逐步提高,更多细节逐渐被纳入训练范围。这一过程通过二维离散余弦变换实现,计算开销仅占总训练成本的0.5%,且无需修改模型架构或训练参数。
实验验证了频谱强制的有效性。在ImageNet-256数据集上,采用该技术的模型在训练60个轮次后,FID分数(衡量生成图像质量)从24.19降至20.68,提升幅度达14.5%;Inception Score(衡量多样性和清晰度)从83.28提升至93.96,增幅约13%。更关键的是,模型达到相同质量所需的训练轮次减少了17%至33%,硬件成本几乎未增加。在更高分辨率(512×512)的测试中,该技术仍能带来稳定提升。
研究进一步揭示了频谱强制的适用边界。当图像被切割为较大图块(如64块)时,模型本身已难以捕捉高频细节,此时频谱强制的效果最为显著;若图块数量增加(如256块),模型本身已能处理更多细节,频谱强制的贡献则相应减弱。该技术对数据内容敏感:若图像高频部分包含关键信息(如医学影像中的病变特征),强行屏蔽可能损害模型性能。
在文字生成图像任务中,频谱强制同样表现出色。以SenseNova-U1模型为例,在DPG-Bench基准测试中,其综合得分从64.35提升至67.85,涵盖的13个子类别中有9个获得改善。提升最明显的维度包括“实体状态”“实体整体”等依赖低频语义信息的类别,而依赖高频细节的类别则变化较小。这一结果与理论预测一致,进一步验证了频谱强制的机制设计。
研究团队还对比了多种替代方案,发现恒定低通滤镜、空间域高斯模糊等方法效果均不如频谱强制。原因在于,这些方法或永久屏蔽部分频率,或无法精准匹配训练阶段的需求,而频谱强制的动态调整机制恰好弥补了这些缺陷。线性调度方案(截止频率随时间均匀扩大)在多数场景下表现稳健,尤其在标准ImageNet配置中优于理论推导的解析方案,这为实际部署提供了实用参考。
目前,该研究的完整论文已通过预印本平台发布,论文编号为arXiv:2606.15236。研究团队强调,频谱强制并非万能解决方案,但其为优化扩散模型训练提供了低成本、高回报的路径。对于开发者而言,这一技术可轻松集成到现有流程中;对于普通用户,则意味着未来图像生成模型的训练效率将进一步提升,生成质量更高且成本更低。











