近期,通义万相宣布了一项重大开源成果——Wan2.2-S2V音频驱动视频模型。这一创新技术仅需一张图片和一段音频,便能生成具有自然面部表情、精准口型同步以及流畅肢体动作的数字人视频,质量堪比电影级别。更令人瞩目的是,其生成的视频时长可达分钟级别,为数字人直播、影视后期及AI教育领域带来了视频创作效率的革命性提升。
Wan2.2-S2V的应用范围广泛,不仅能够驱动真实人物、卡通角色、动物形象,还能生成数字人视频。无论是肖像、半身还是全身图片,只需上传一段音频,模型便能令图片中的主体生动地进行对话、歌唱或表演,展现出极高的灵活性和适应性。
通义团队依托通义万相的通用视频生成技术,结合文本引导的全局运动控制和音频驱动的局部精细动作,成功实现了复杂场景下音频到视频的转换。通过引入AdaIN和CrossAttention两种调控机制,进一步提升了音频控制的精准度和动态表现,使生成的视频更加栩栩如生。
在视频生成时长方面,Wan2.2-S2V单次即可产出分钟级的视频内容,极大地满足了长时间视频制作的需求。这一突破得益于其采用的层次化帧压缩技术,有效减少了历史帧的Token数量,将历史参考帧的长度扩展至73帧,确保了长视频生成的稳定性和连贯性。
Wan2.2-S2V还支持文本控制功能,用户可以通过输入指令对视频画面进行个性化调整,包括镜头运动、角色轨迹规划以及实体间的互动设计,使得视频内容更加丰富多变,视觉体验更为立体。
为了满足不同分辨率场景的视频生成需求,Wan2.2-S2V采用了多分辨率训练技术,并支持多分辨率推理。无论是适合移动设备的竖屏短视频,还是适合大屏播放的横屏影视剧,都能轻松应对,展现出强大的通用性和实用性。
目前,用户已经可以通过Github、HuggingFace和魔搭社区下载Wan2.2-S2V模型,并通过阿里云百炼API调用,或直接访问通义万相官网进行体验。这一开源成果的发布,无疑将为视频创作领域注入新的活力,推动相关行业的快速发展。