在AI图像生成领域,速度与质量的平衡始终是技术突破的关键。阿里智能引擎团队近日宣布,其研发的Qwen-Image-Turbo模型通过创新蒸馏技术,将传统扩散模型生成2K高清图片的时间从近1分钟压缩至5秒,同时支持单次输出4张图像。这一突破性成果已通过开源平台HuggingFace和ModelScope向全球开发者开放,并集成至呜哩AI平台供用户直接调用。
传统扩散模型依赖多步去噪过程,导致生成效率低下。研究团队指出,早期轨迹蒸馏方案虽尝试通过模仿教师模型的生成路径来加速学生模型训练,但存在显著缺陷:这类方法对图像细节的约束方式过于简单,导致低迭代步数下生成的图像模糊,尤其在文字、人物五官等精细区域表现不佳。实验数据显示,当去噪步数从80-100步骤降至2步时,传统方法生成的图像质量急剧下降,无法满足实际应用需求。
为突破这一瓶颈,团队引入基于概率空间的反向KL散度(Reverse-KL)蒸馏框架。该方案不直接约束生成样本与教师模型输出的相似度,而是通过惩罚学生模型生成不符合真实分布的图像来优化训练过程。具体而言,当教师模型对某图像的预测概率趋近于零时,若学生模型仍生成该图像,则损失函数将趋近于无穷大。这种机制迫使模型优先学习真实图像的分布特征,显著提升了生成结果的细节合理性。
针对2步蒸馏场景下易出现的分布退化问题,研究团队采用PCM蒸馏技术进行模型热启动。通过预训练初始化参数,有效缓解了模型多样性降低、饱和度异常等副作用。实验对比显示,经过热启动的模型在形体结构完整性上较直接训练版本提升37%,为后续对抗训练奠定了基础。
为进一步突破教师模型的性能上限,团队创新性地将生成对抗网络(GAN)引入蒸馏流程。通过混合高质量真实数据与教师模型生成样本训练判别器,并引入DINO模型提取鲁棒特征,构建了多维度监督体系。调整后的损失函数权重分配使对抗训练占比提升至40%,在苔藓纹理、动物毛发等复杂细节的生成测试中,新模型的表现较纯蒸馏方案提升22%,达到接近50步传统模型的视觉效果。
该成果的工程化落地得益于团队在AI基础设施领域的深厚积累。作为阿里集团AI工程系统的核心建设者,智能引擎团队长期聚焦大模型全链路优化,其自主研发的Havenask、RTP-LLM等开源项目已形成完整技术生态。此次发布的Qwen-Image-Turbo模型延续了团队"开放共享"的技术理念,所有权重文件与训练代码均同步开源,为学术研究与商业应用提供了可复现的技术基准。
目前,该模型已在电商商品图生成、广告创意设计等工业场景完成压力测试。在相同硬件条件下,新模型较传统方案节省92%的推理时间,同时保持97%以上的视觉相似度。研究团队透露,后续版本将探索动态步数调整机制,通过自适应控制去噪过程,在复杂场景下实现速度与质量的动态平衡。
参考文献:[1] Progressive Distillation for Fast Sampling of Diffusion Models[2] Consistency Models[3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY[4] Improved Distribution Matching Distillation for Fast Image Synthesis[5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence[6] Transition Matching Distillation for Fast Video Generation[7] Phased Consistency Models









