近日,视频编辑技术领域迎来了一次革命性的进展,通义万相正式宣布将其创新的视频编辑模型VACE进行开源。此次推出的VACE包含两个版本,Wan2.1-VACE-1.3B支持480P分辨率的视频处理,而更高规格的Wan2.1-VACE-14B则进一步支持到720P分辨率,为用户提供更多选择。
VACE的问世,彻底颠覆了传统的视频创作模式。用户无需再在各种模型和工具之间来回切换,仅凭VACE即可实现从文字生成视频、图像参考生成、局部编辑到视频扩展等一系列操作,极大地提升了创作的便捷性和效率。这一站式视频创作体验,让视频编辑变得更加灵活和高效。
VACE的核心竞争力在于其强大的可控重绘能力。通过基于人体姿态、运动光流、结构保持、空间运动和着色等多种控制生成技术,VACE能够轻松实现视频生成后的细致调整。它还支持基于主体和背景参考的视频生成,使得调整人物姿态、动作轨迹或场景布局等操作变得易如反掌。这一能力的背后,是VACE先进的多模态输入机制。
VACE的多模态输入机制将文本、图像、视频、Mask和控制信号等多种输入形式整合到一个统一的系统中。无论是图像输入中的物体参考图或视频帧,还是视频输入中的抹除、局部扩展等操作,VACE都能应对自如。用户还可以通过0/1二值信号来指定编辑区域,并通过深度图、光流、布局、灰度、线稿和姿态等控制信号来进一步精确控制。
VACE不仅支持对视频内容的替换、增加和删除等操作,还能在时间维度上根据任意片段或首尾帧补全整个视频时长。在空间维度上,VACE同样表现出色,能够对画面边缘或背景区域进行扩展生成,如背景替换功能,可以在保留主体不变的前提下,根据Prompt更换背景环境。这些功能的实现,得益于VACE强大的多模态输入模块和Wan2.1的卓越生成能力。
更VACE还支持多种单任务能力的自由组合,打破了传统专家模型各自为战的限制。作为统一模型,VACE能够自然融合文生视频、姿态控制、背景替换、局部编辑等原子能力,无需为单一功能单独训练新模型。这种灵活组合机制不仅简化了创作流程,还极大地拓展了AI视频生成的创意边界。
例如,通过组合图片参考与主体重塑功能,VACE可以实现视频中物体的替换;通过组合运动控制与首帧参考功能,则可以实现静态图片的姿态控制。还可以将图片参考、首帧参考、背景扩展与时长延展功能相结合,将竖版图拓展为横屏视频,并在其中加入参考图片中的元素。这些功能的实现,都得益于VACE提出的灵活统一的输入范式——视频条件单元VCU。
VCU将多模态的各类上下文输入总结为文本、帧序列、mask序列三大形态,从而在输入形式上统一了四类视频生成与编辑任务。VCU的帧序列和Mask序列在数学上可以相互叠加,为多任务的自由组合创造了有利条件。在技术实现方面,VACE需要解决的一大难题是如何将多模态输入统一编码为扩散Transformer可处理的token序列。为此,VACE对VCU输入中的frame序列进行概念解耦,并通过隐空间编码和可训练参数映射等步骤,成功将多模态输入转化为DiT的token序列。
在训练策略上,VACE对比了全局微调与上下文适配器微调两种方案,并最终选择了收敛速度更快且能避免基础能力丢失风险的上下文适配器微调方法。通过定量评测可以看出,相比1.3Bpreview版本,本次开源的VACE系列模型在多个关键指标上均有显著提升。
对于广大开发者而言,VACE的开源无疑是一个巨大的福音。他们可以通过GitHub(https://github.com/Wan-Video/Wan2.1)、魔搭(https://modelscope.cn/organization/Wan-AI)、Hugging Face(https://huggingface.co/Wan-AI)等平台获取VACE的源代码和模型资源,并在国内站(https://tongyi.aliyun.com/wanxiang/)和国际站(https://wan.video)上获取更多信息和支持。