ITBear旗下自媒体矩阵:

小红书联合复旦推出InstanceAssemble:AI绘画精准构图新突破,技术开源赋能创作

   时间:2025-12-26 14:02:51 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

AI绘画领域迎来重要突破,小红书与复旦大学联合研发的InstanceAssemble技术,在布局控制生成方向实现关键进展。这项基于扩散变换器架构的创新方案,通过引入"实例拼装注意力"机制,成功解决了复杂场景下图像生成的布局对齐难题,相关研究成果已被国际顶级学术会议NeurIPS 2025收录。

传统布局控制生成技术面临三大挑战:物体位置偏移、语义理解偏差以及计算资源消耗过大。研究团队针对这些痛点,开发出无需模型重训练的轻量化适配方案,仅需增加约7100万个参数(相当于Stable Diffusion3-Medium模型的3.46%),即可实现高精度布局控制。当适配Flux.1模型时,额外参数需求更降至0.84%,显著降低技术落地门槛。

该技术的核心创新在于构建了动态实例注意力网络。用户输入边界框坐标与物体描述后,系统会先定位空间关系,再通过语义解码器生成符合物理规律的图像内容。实验数据显示,在包含90万个实例的密集场景测试中,InstanceAssemble的布局准确率较现有方法提升42%,语义一致性指标提高37%。即使在训练时仅接触稀疏布局(≤10个实例),面对密集场景(≥10个实例)仍能保持稳定性能。

为建立标准化评估体系,研究团队同步推出Denselayout基准测试集和Layout Grounding Score(LGS)评估指标。该测试集包含5000张高分辨率图像和9万个标注实例,覆盖室内设计、城市景观等八大场景。LGS指标通过三维空间匹配度、语义关联性等六个维度,实现了对布局生成质量的量化评估。

目前,这项技术已实现完整开源,代码库和预训练模型均可在GitHub平台获取。实际应用测试表明,在广告设计领域,设计师通过调整边界框参数,可将单张海报的制作时间从3小时缩短至45分钟;在动漫创作场景中,分镜脚本到视觉画面的转化效率提升60%。技术团队表示,未来将持续优化多物体交互关系的生成逻辑,探索在虚拟制片、工业仿真等领域的延伸应用。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version