生成式AI领域长期面临一个核心难题:如何在保证生成质量的同时提升生成速度。传统扩散模型通过迭代去噪实现高保真输出,但需要大量计算步数;而少步生成模型虽能快速出图,却往往陷入质量瓶颈。近日,一项名为Transition Model(TiM)的新研究提出突破性解决方案,通过重构生成模型的训练范式,首次实现质量与速度的同步提升。
研究团队指出,现有技术路线存在根本性矛盾。扩散模型依赖对无穷小时间步的瞬时动力学监督,导致采样时必须使用极小步长或复杂求解器,计算量(NFEs)居高不下。而少步生成模型(如Consistency/Shortcut系列)通过端点映射实现快速生成,却因缺失中间动力学细节,增加步数后质量提升迅速饱和。这种"局部监督"与"全局端点监督"的二元对立,成为制约生成模型发展的关键瓶颈。
TiM的创新在于彻底重构训练目标。该模型不再局限于单一时刻的瞬时速度场或固定区间的端点映射,而是直接建模任意两个时间点之间的完整状态转移。通过推导"通用状态转移恒等式",TiM能够描述任意时间间隔内的状态演变规律,从而支持灵活调整的单步步长和多段细化轨迹。这种设计使模型在理论上具备无限步长采样能力,可根据需求动态平衡生成速度与质量。
数学本质层面,TiM实现了从局部解到全局流形的跨越。传统扩散模型求解的是局部PF-ODE的数值解,Meanflow等模型则局限于平均速度场的解集。而TiM通过建模任意时间区间的状态转移,构建出全局生成路径的解流形,在特殊情况下可退化为平均速度场,但通常包含更丰富的动力学信息。这种全局视角使模型既能保持少步生成的效率,又能通过多段细化持续提升质量。
在图文生成任务的实证研究中,865M参数的TiM模型展现出惊人性能。在Geneval数据集上,该模型不仅在少步生成时明确超越12B参数的FLUX.1-Schnell蒸馏模型,其质量上限更超过同量级的FLUX.1-Dev模型。特别值得关注的是,TiM通过原生分辨率预训练策略,实现了对不同分辨率和横纵比的灵活适配,这在传统模型中需要额外调整才能实现。
训练方法的革新是TiM成功的另一关键。针对传统方法依赖雅可比-向量乘积(JVP)导致的计算瓶颈,研究团队提出差分推导方程(DDE)。这种基于有限差分的前向计算方式,计算效率比JVP提升近2倍,且完全兼容FlashAttention和FSDP等分布式训练框架,使十亿参数级模型的训练成为可能。在稳定性优化方面,通过引入时间重参化加权策略,优先处理短间隔转移任务,有效降低了大时间跨度下的梯度方差,使训练过程更加稳健。
实验数据显示,TiM在多分辨率测试中展现出卓越的适应性。当推理步数(NFE)从8步增加到64步时,模型质量持续稳定提升,而传统模型在32步后即出现质量饱和。这种可扩展性使TiM能够根据实际需求动态调整生成策略,在移动端等计算资源受限场景中可采用少步生成,在专业创作领域则可通过增加步数获取更高质量结果。