最近,AI图像生成与编辑领域迎来了一次重要突破。一款名为DreamOmni2的新模型开源发布,迅速引发海外创作者社区的广泛关注和讨论。这款由香港科技大学贾佳亚教授团队研发的模型,被认为有望将多模态图像编辑与生成技术推向新的高度。
随着谷歌Nano Banana、字节Seedream4.0和阿里Qwen-Image-Edit-2509等模型的出现,图像编辑领域进入了一个新的发展阶段。这些模型不仅支持OOTD穿搭生成、文字渲染和电影分镜制作,还让创作者无需掌握复杂的修图技巧,就能实现更具创意和产品价值的图像生成。
然而,现有模型在实际应用中仍存在一些局限。例如,语言指令有时无法准确描述需求,需要结合参考图像和额外说明;在处理抽象概念如发型、妆容、纹理等时,表现往往不尽如人意。这些问题促使研究人员探索更优的技术解决方案。
DreamOmni2的推出正是为了解决这些痛点。该模型基于FLUX-Kontext架构训练,不仅保留了原有的指令编辑和文生图能力,还创新性地增加了多参考图生成编辑功能,为创作者提供了更高的灵活性和创意空间。据团队介绍,无论是具体物体还是抽象概念的编辑与生成,DreamOmni2的表现都显著优于当前最先进的开源模型,甚至在某些方面超越了Nano Banana。
在实际测试中,DreamOmni2展现了强大的能力。当要求将一张熊猫图片的背景替换为另一张图片时,模型迅速生成了符合要求的证件照,毛发细节处理得当,效果堪比专业修图。更复杂的是风格迁移任务,模型能准确捕捉参考图的色调和氛围,并将其自然融入原图。
与GPT-4o和Nano Banana等主流模型的对比测试显示,DreamOmni2在处理复杂指令时表现更为出色。例如,在将一张图片中的夹克替换为另一张图片中的衣服时,DreamOmni2不仅准确完成了替换,还自然保留了人物特征,只有衣领部分略有出入。相比之下,GPT-4o生成的结果显得不自然,人物比例失调;Nano Banana虽然整体效果不错,但衣物颜色和形态发生了变化,logo也消失了。
DreamOmni2的另一大亮点是其多模态生成能力。在测试中,模型成功将一张图片中的徽标印在另一张图片的物体上,并自然放置在桌面上,光影效果处理得当。更令人印象深刻的是,根据手绘草图生成相同姿态图片的任务中,DreamOmni2能准确捕捉草图中的姿态信息,将其转化为自然的人物动作。
这些优异表现的背后,是贾佳亚团队在数据构建、框架设计和训练策略上的创新。团队提出了三阶段式数据构建范式,通过特征混合、真实数据与模型自生数据的结合,解决了多模态训练中抽象概念稀缺和缺乏参考图像条件的问题。同时,团队对模型框架进行了针对性修改,添加索引编码到位置通道,有效缓解了复制粘贴和像素混淆现象。
在训练优化方面,团队提出了VLM和生成模型联合训练的机制,使模型能更好地理解复杂用户指令。通过LoRA方法分别训练编辑与生成模块,实现了编辑与生成功能的无缝融合。这些技术创新使DreamOmni2在多模态指令编辑与生成任务中达到了新的水平。
开源两周以来,DreamOmni2在GitHub上已获得1.6k的Star量,受到开源社区的广泛认可。YouTube上也出现了大量介绍和使用经验分享的视频,有创作者称赞其为"King Bomb",特别肯定了其在抽象概念理解方面的能力。











