阿里巴巴集团ModelScope团队近日提出一项创新框架,旨在解决AI绘图领域长期存在的控制工具碎片化难题。该研究以预印本形式发布于arXiv平台,通过定义标准化接口实现不同控制方法的无缝整合,为设计师和开发者提供更高效的创作工具。
当前主流AI绘图模型虽能根据文本生成高质量图像,但在精确控制画面元素时仍面临挑战。设计师若需同时实现精准构图、暖色调渲染和特定艺术风格,往往需要组合使用多个独立开发的控制工具。这些工具训练逻辑各异、参数格式不兼容,组合使用时易产生冲突,导致创作流程繁琐且效率低下。
研究团队提出的Diffusion Templates框架借鉴大语言模型插件机制,构建包含模板模型、模板缓存和模板管道的标准化体系。模板模型负责将各类控制信号转化为统一中间表示,支持深度图、轮廓线、人体姿态等结构控制条件;模板缓存作为核心接口,采用KV缓存和LoRA两种格式传递控制信息,确保与底层模型兼容;模板管道则统筹调度多个模型,实现控制信号的自动合并与参数优化。
实验验证环节,研究团队基于FLUX.2模型训练十种模板模型,覆盖从基础视觉属性到复杂图像理解的多元场景。结构控制模型支持四种空间布局条件,亮度调整模型通过标量值控制画面明暗,颜色调整模型则采用RGB三通道参数实现色调偏移。图像编辑模板通过转移计算任务提升处理速度1.8倍,超分辨率模型在放大图像时保持细节清晰度,锐度控制模型通过边缘密度统计实现画面软调节。
美学对齐实验突破传统量化评估模式,采用成对图片比较数据集训练LoRA模板。当控制参数从0逐步提升至2.5时,生成图像不仅光线更柔和,还自主添加粉色花朵等装饰元素,展现出模型对审美偏好的连续理解能力。内容参考模型将输入图片编码为LoRA参数,生成结果或继承风格或保留姿态,形成独特的参考生成范式。
多能力融合测试中,结构控制与颜色调整的组合可生成指定构图与色调的艺术画,超分辨率与锐度增强的叠加能产出高清晰度图像。本地修复任务通过"模型软控制+管道硬约束"方案,在修改指定区域的同时确保背景完全一致。年龄控制实验验证了标量控制公式的普适性,从20岁到80岁的面部特征变化自然流畅。
该框架通过显存按需加载机制,支持多个模板模型协同工作而不显著增加内存占用。研究团队坦言当前成果仍属原型阶段,未来需在量化评估、接口优化和视频生成扩展等方面持续改进。所有代码、模型权重和训练数据集已开源,开发者可通过论文编号arXiv:2604.24351获取完整资源。
针对技术细节,研究团队解释模板缓存相当于控制信号的"通用翻译器",KV缓存直接干预注意力计算过程,LoRA则通过轻量级参数调整实现控制。与ControlNet等专用工具不同,该框架不限制具体控制方法,任何符合接口标准的模型均可接入,真正实现控制能力的"即插即用"。这种设计使得非专业用户也能轻松组合构图、色彩、风格等多种控制需求,显著降低AI绘图的技术门槛。









