ITBear旗下自媒体矩阵:

小红书联合复旦推出InstanceAssemble:AI绘画实现复杂布局精准生成新突破

   时间:2025-12-27 07:53:53 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

AI绘画领域迎来重要突破,复旦大学与小红书联合研发的InstanceAssemble技术,在布局控制生成(Layout-to-Image)方向实现关键性进展。这项基于扩散变换器架构的创新方案,通过引入"实例拼装注意力"机制,成功解决了复杂场景下物体布局对齐与语义匹配的难题,相关研究成果已被国际顶级学术会议NeurIPS 2025收录。

传统AI绘画技术主要依赖文字描述生成图像(Text-to-Image),而新一代布局控制生成技术则要求系统根据用户指定的空间约束条件进行创作。这些约束条件包括物体边界框、分割掩码或骨架图等空间定位信息,技术难点在于如何确保生成图像中的每个物体都严格符合预设位置,同时保持语义逻辑的连贯性。现有方案普遍存在布局偏移、语义脱节或计算资源消耗过大等问题。

研究团队提出的InstanceAssemble技术通过创新机制实现了精准控制。该系统采用轻量化设计,仅需在现有模型基础上增加约7100万个参数(相当于Stable Diffusion3-Medium模型容量的3.46%),即可完成模型适配。特别值得注意的是,当适配Flux.1模型时,额外参数需求更低至0.84%,显著降低了技术落地门槛。

实验数据显示,在包含90万个实例的密集布局数据集测试中,新技术展现出卓越性能。研究团队专门构建的"Denselayout"基准测试集包含5000张图像和9万个实例,配合全新设计的"Layout Grounding Score"评估指标,能够精确量化生成图像与布局指令的匹配程度。测试结果表明,即使训练数据仅包含稀疏布局(≤10个实例),系统在处理密集场景(≥10个实例)时仍能保持稳定输出。

这项突破性成果标志着AI绘画技术进入精准构图时代。用户只需提供物体位置框和内容描述,系统即可在指定区域生成符合语义的图像元素,无论是简单场景还是复杂构图都能保持高度一致性。研究团队表示,该技术已具备实际应用条件,未来可广泛应用于数字内容创作、虚拟场景构建等领域,为创意产业提供新的技术支撑。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version