在科技日新月异的今天,阿里再次展示了其在人工智能领域的深厚积累。近日,阿里通义万相宣布正式开源其最新的多模态视频生成模型——Wan2.2-S2V。这一创新技术允许用户仅凭一张静态图片和一段音频,就能生成面部表情生动、口型同步、动作流畅的电影级数字人视频。
据悉,Wan2.2-S2V单次生成的视频时长可达分钟级别,这一突破有望极大提升数字人直播、影视后期制作、AI教育等多个行业的视频创作效率。目前,该模型已在通义万相官网、Hugging Face及魔搭社区等平台上线,供开发者及行业用户免费试用。
回顾阿里在视频生成领域的探索历程,不难发现其一直走在行业前列。早在7月28日,阿里便开源了包括文生视频、图生视频及统一视频生成在内的Wan2.2系列模型。其中,文生视频和图生视频模型更是业界首个采用MoE架构的视频生成模型,为行业树立了新的标杆。
而仅仅半个多月后,阿里又推出了Wan2.2-I2V-Flash模型,其推理速度相较于前代提升了12倍,进一步降低了使用门槛。此次发布的Wan2.2-S2V则更加注重音频与图像的融合,通过精准的音频驱动技术,实现了画面与音频的完美契合。
在实际体验中,Wan2.2-S2V展现出了惊人的表现力。无论是真人、卡通、动物还是数字人形象,只需上传一张图片和一段音频,模型便能生成一段生动的视频。视频中的主体形象能够完成说话、唱歌、表演等多种动作,且面部表情和口型与音频高度同步。
尤其Wan2.2-S2V还支持不同分辨率的视频生成需求,无论是竖屏短视频还是横屏影视剧,都能轻松应对。该模型还引入了AdaIN和CrossAttention两种控制机制,实现了更准确、更动态的音频控制效果。
在测试过程中,笔者上传了一张动画人物图片并输入了一段文字指令,要求让画面中的角色唱歌。结果令人惊喜,动画人物不仅动了起来,还自行配上了背景音乐,虽然嘴巴线条的识别仍有待提升,但整体效果已经相当出色。
笔者还尝试上传了一张欧美男生的照片和一段中文音频。生成的视频中,人物形象与原图高度一致,面部表情和嘴部动作与音频完美同步,甚至脸上的光线都随着嘴形的变化而变化,展现出了Wan2.2-S2V强大的生成能力。
随着数字人直播、影视制作等行业的快速发展,对高效视频创作工具的需求日益迫切。阿里通义万相此次推出的Wan2.2-S2V模型,无疑为解决这一需求提供了有力的技术支撑。未来,随着技术的不断迭代和完善,相信视频生成领域将迎来更多的创新和突破。