智象未来科研团队近期成功推出了VAREdit,这是一款革命性的自回归图像编辑框架,标志着图像编辑技术迈入了纯自回归模型的新纪元。VAREdit以其独特的设计,精准响应用户指令,避免了不必要的过度编辑,同时实现了编辑速度的飞跃,仅需约0.7秒即可完成操作,为实时互动和高效创作提供了强有力的支持。
在过去,图像编辑领域主要依赖扩散模型,尽管其能生成高质量图像,但编辑过程往往伴随着局部修改影响整体结构、编辑精度不足以及多步骤迭代效率低下等问题。为了克服这些挑战,VAREdit创新性地引入了视觉自回归(VAR)架构,将编辑过程定义为“下一尺度预测”,通过逐层生成多尺度残差特征,实现了局部精准修改与整体结构保持的和谐统一。团队还开发了尺度对齐参考(SAR)模块,有效解决了尺度匹配难题,进一步提升了编辑的质量和效率。
在EMU-Edit与PIE-Bench这两项权威基准测试中,VAREdit展现出了卓越的性能。特别是在CLIP与GPT等指标上,VAREdit-8.4B版本相较于ICEdit和UltraEdit分别取得了41.5%和30.8%的显著提升。同时,轻量级的VAREdit-2.2B版本也能够在极短时间内,即0.7秒内,完成对512×512分辨率图像的高保真编辑,实现了数倍的速度提升。
目前,VAREdit已在GitHub和Hugging Face两大平台上全面开源,供全球开发者和研究人员免费使用。这一举措不仅展示了智象未来团队的技术自信,也为图像编辑技术的进一步发展和创新提供了坚实的基础。随着VAREdit的广泛应用,我们有理由相信,图像编辑领域将迎来更多激动人心的变革和突破。