阿里巴巴近日震撼发布其最新的多模态视频生成技术——通义万相Wan2.2-S2V,这一创新成果迅速吸引了业界的目光。凭借卓越的性能,这款模型能够将静态图片与音频巧妙结合,生成出面部表情栩栩如生、口型与音频严丝合缝、动作流畅如电影般的数字人视频,且单次生成时长可达分钟级别,这在行业内堪称翘楚。
为了让广大用户能够轻松体验这一先进技术,阿里巴巴已将Wan2.2-S2V模型上架至Hugging Face和魔搭社区,用户可直接下载使用,或访问通义万相官网进行体验。无论是真人、卡通形象,还是动物、数字人,只需提供一张图片和一段音频,无论是肖像、半身还是全身画幅,模型都能让图片中的主体形象生动“开口”,无论是说话、唱歌还是表演,都栩栩如生。
更令人惊叹的是,Wan2.2-S2V还引入了文本控制功能,用户通过输入简单的指令,即可对视频画面进行个性化定制,让视频中的主体运动和背景变化更加丰富多彩。例如,用户只需上传一张人物弹钢琴的照片、一段歌曲以及描述性文字,模型就能迅速生成一段情感饱满的钢琴演奏视频。视频中的人物形象不仅与原图高度一致,其面部表情、嘴部动作与音频的同步更是精准无比,甚至连手指的动作、力度和速度都能完美契合音频的节奏,展现出极高的真实感和艺术性。
在技术层面,Wan2.2-S2V融合了多项前沿技术,基于通义万相的视频生成基础模型,结合了文本引导的全局运动控制和音频驱动的细粒度局部运动,实现了复杂场景下音频驱动视频的高效生成。同时,通过引入AdaIN和CrossAttention两种控制机制,模型在音频控制方面展现出更为准确和动态的效果。为了保障长视频生成的稳定性和高质量,模型采用了层次化帧压缩技术,大幅降低了历史帧的Token数量,从而将历史参考帧的长度从数帧拓展至73帧,确保了长视频生成的流畅度和清晰度。
在模型训练方面,阿里巴巴团队构建了包含超过60万个片段的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能潜力。模型还支持多分辨率训练与推理,能够轻松应对不同分辨率场景的视频生成需求,无论是竖屏短视频还是横屏影视剧,都能游刃有余地生成高质量视频。
经过实测,Wan2.2-S2V在视频质量、表情真实度和身份一致性等核心指标上均表现出色,取得了同类模型中的顶尖成绩。自今年2月以来,通义万相已陆续开源了多款视频生成模型,包括文生视频、图生视频、首尾帧生视频等,受到了开源社区和第三方平台的热烈欢迎。截至目前,这些模型的下载量已超过2000万次,成为开源社区中最受欢迎的视频生成模型之一,展现了阿里巴巴在人工智能领域的强大实力和创新能力。