ITBear旗下自媒体矩阵:

阿里云通义万相2.2开源:三款视频生成模型,电影级美学控制引领新潮流

   时间:2025-07-29 16:57:13 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

阿里云近期宣布了一项重大开源举措——通义万相2.2版本正式对外开放。此次开源涵盖了三大核心模型:文生视频模型Wan2.2-T2V-A14B、图生视频模型Wan2.2-I2V-A14B,以及统一视频生成模型Wan2.2-TI2V-5B。

用户现在可以通过GitHub、HuggingFace和魔搭社区等多个平台下载这些模型的代码和资源。通义万相的官方网站和APP也提供了直接体验的机会,让开发者能够轻松上手。

值得注意的是,文生视频和图生视频模型均首次采用了MoE架构,总参数量高达27B,激活参数为14B。尤为特别的是,这两款模型内置了创新的电影美学控制系统,能够精准控制光影、色彩、构图和微表情,达到专业电影级别的制作效果。

Wan2.2-T2V-A14B和Wan2.2-I2V-A14B的设计巧妙结合了高噪声专家模型和低噪专家模型,前者负责视频的整体布局,后者则专注于细节优化。这种组合在同参数规模下,实现了约50%的计算资源节省。在性能上,通义万相2.2在复杂运动生成、人物交互和美学表达等多个维度上均取得了显著提升。

统一视频生成模型Wan2.2-TI2V-5B则是一款小巧而强大的模型,其尺寸仅为5B,却能同时支持文生视频和图生视频功能。更令人惊喜的是,它可以在消费级显卡上部署,大大降低了使用门槛。该模型采用了先进的3D VAE架构,实现了高达4×16×16的时间与空间压缩比,信息压缩率也提升至64,均达到了开源模型中的顶尖水平。

凭借这一高压缩率架构,Wan2.2-TI2V-5B仅需22G显存(单张消费级显卡),就能在短短数分钟内生成5秒高清视频。这一速度在24帧每秒、720P像素级的视频生成中堪称最快,为视频创作领域带来了全新的基础模型选择。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version