阿里巴巴近日宣布了一项重大开源举措,正式推出了视频生成模型“通义万相Wan2.2”。此次开源涵盖了三款先进的模型:文生视频模型(Wan2.2-T2V-A14B)、图生视频模型(Wan2.2-I2V-A14B)以及统一视频生成模型(Wan2.2-IT2V-5B)。值得注意的是,前两款模型均创新性地采用了MoE架构,总参数量高达27B,其中激活参数为14B。这一设计不仅提升了模型的性能,还通过结合高噪声专家模型和低噪专家模型,有效节省了约50%的计算资源。
尤为引人注目的是,Wan2.2引入了“电影美学控制系统”,这一功能使得光影、色彩、构图乃至微表情的呈现都能达到专业电影级别的水准。用户只需输入如“黄昏”、“柔光”或“中心构图”等关键词,模型便能自动生成具有浪漫氛围的金色落日画面;而使用“冷色调”、“硬光”等指令,则可创造出科幻风格的视觉效果。这一创新无疑为用户提供了前所未有的创作自由度。
通义万相还开源了一款尺寸较小的统一视频生成模型,其参数量仅为5B,却能同时支持文本到视频和图像到视频的生成。这款模型采用了高效的3D VAE架构,实现了时间与空间的高压缩率,信息压缩率更是提升至64倍,达到了开源模型中的顶尖水平。更令人惊喜的是,该模型仅需22G显存即可在消费级显卡上运行,能在数分钟内生成5秒高清视频,生成速度达到每秒24帧、720P像素级,为用户提供了极大的便利。
为了方便开发者使用,阿里巴巴已将模型和代码上传至GitHub、HuggingFace以及魔搭社区。企业用户则可以通过阿里云百炼平台调用模型API。同时,用户还可以通过通义万相官网和通义APP直接体验这些强大的功能,感受AI技术在视频生成领域的无限潜力。