ITBear旗下自媒体矩阵:

阿里开源Wan2.2-S2V模型:静态图与音频合成电影级数字人视频

   时间:2025-08-27 12:02:24 来源:钱江晚报编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近日,阿里巴巴正式推出了其最新的多模态视频生成模型——通义万相Wan2.2-S2V。这款模型凭借其强大的功能,引起了业界的广泛关注。用户只需提供一张静态图片和一段音频,Wan2.2-S2V便能生成面部表情自然、口型与音频完美同步、肢体动作流畅如电影级别的数字人视频。尤为其单次生成的视频时长可达分钟级,这在业界尚属领先。

为了方便用户体验,该模型已在Hugging Face和魔搭社区上架,用户可以直接下载,或在通义万相官网进行体验。从真人、卡通到动物、数字人,Wan2.2-S2V支持多种类型的图片,无论肖像、半身还是全身画幅,只需上传一段音频,模型就能让图片中的主体形象活灵活现地说话、唱歌或表演。

不仅如此,Wan2.2-S2V还引入了文本控制功能,用户可以通过输入Prompt,进一步对视频画面进行个性化调整,使视频中的主体运动和背景变化更加丰富多样。例如,用户上传一张人物弹钢琴的照片、一段歌曲以及一段描述性的文字,模型就能生成一段完整且充满情感的钢琴演奏视频。视频中的人物形象不仅与原图保持一致,其面部表情、嘴部动作与音频的同步也极为精准,甚至连手指的动作、力度和速度都能完美匹配音频的节奏。

在技术层面,Wan2.2-S2V融合了多项创新技术。它基于通义万相的视频生成基础模型,结合了文本引导的全局运动控制和音频驱动的细粒度局部运动,实现了复杂场景下音频驱动视频的高效生成。同时,通过引入AdaIN和CrossAttention两种控制机制,模型实现了更为准确和动态的音频控制效果。为了保障长视频的生成质量,Wan2.2-S2V采用了层次化帧压缩技术,大幅降低了历史帧的Token数量,从而将历史参考帧的长度从数帧拓展到了73帧,确保了长视频生成的稳定性和高质量。

在模型训练方面,阿里巴巴团队构建了包含超过60万个片段的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能潜力。模型还支持多分辨率训练与推理,能够满足不同分辨率场景的视频生成需求,无论是竖屏短视频还是横屏影视剧,都能轻松应对。

实测数据显示,Wan2.2-S2V在视频质量、表情真实度和身份一致性等核心指标上均取得了同类模型中的最佳成绩。自今年2月以来,通义万相已陆续开源了多款视频生成模型,包括文生视频、图生视频、首尾帧生视频等,受到了开源社区和第三方平台的热烈欢迎,下载量已超过2000万次,成为开源社区中最受欢迎的视频生成模型之一。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version