滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

阿里开源Wan2.2-S2V模型：静态图与音频合成电影级数字人视频

时间：2025-08-27 12:02:24 来源：钱江晚报编辑：快讯团队 IP：北京 发表评论无障碍通道

近日，阿里巴巴正式推出了其最新的多模态视频生成模型——通义万相Wan2.2-S2V。这款模型凭借其强大的功能，引起了业界的广泛关注。用户只需提供一张静态图片和一段音频，Wan2.2-S2V便能生成面部表情自然、口型与音频完美同步、肢体动作流畅如电影级别的数字人视频。尤为其单次生成的视频时长可达分钟级，这在业界尚属领先。

为了方便用户体验，该模型已在Hugging Face和魔搭社区上架，用户可以直接下载，或在通义万相官网进行体验。从真人、卡通到动物、数字人，Wan2.2-S2V支持多种类型的图片，无论肖像、半身还是全身画幅，只需上传一段音频，模型就能让图片中的主体形象活灵活现地说话、唱歌或表演。

不仅如此，Wan2.2-S2V还引入了文本控制功能，用户可以通过输入Prompt，进一步对视频画面进行个性化调整，使视频中的主体运动和背景变化更加丰富多样。例如，用户上传一张人物弹钢琴的照片、一段歌曲以及一段描述性的文字，模型就能生成一段完整且充满情感的钢琴演奏视频。视频中的人物形象不仅与原图保持一致，其面部表情、嘴部动作与音频的同步也极为精准，甚至连手指的动作、力度和速度都能完美匹配音频的节奏。

在技术层面，Wan2.2-S2V融合了多项创新技术。它基于通义万相的视频生成基础模型，结合了文本引导的全局运动控制和音频驱动的细粒度局部运动，实现了复杂场景下音频驱动视频的高效生成。同时，通过引入AdaIN和CrossAttention两种控制机制，模型实现了更为准确和动态的音频控制效果。为了保障长视频的生成质量，Wan2.2-S2V采用了层次化帧压缩技术，大幅降低了历史帧的Token数量，从而将历史参考帧的长度从数帧拓展到了73帧，确保了长视频生成的稳定性和高质量。

在模型训练方面，阿里巴巴团队构建了包含超过60万个片段的音视频数据集，通过混合并行训练进行全参数化训练，充分挖掘了模型的性能潜力。模型还支持多分辨率训练与推理，能够满足不同分辨率场景的视频生成需求，无论是竖屏短视频还是横屏影视剧，都能轻松应对。

实测数据显示，Wan2.2-S2V在视频质量、表情真实度和身份一致性等核心指标上均取得了同类模型中的最佳成绩。自今年2月以来，通义万相已陆续开源了多款视频生成模型，包括文生视频、图生视频、首尾帧生视频等，受到了开源社区和第三方平台的热烈欢迎，下载量已超过2000万次，成为开源社区中最受欢迎的视频生成模型之一。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

AI落地实战：以小见大，智能技术如何成为行业变革的催化剂

李开宇通过新网银行的实践案例将大模型应用分为从“行外”到“行内”：行外通过云端大模型处理非敏感信息，如市场分析等，利用其联网能力和泛化性提升效率；行内则基于开源技术在本地部署，处理交易数据等敏感信息，同时成…

08-27

Meta强化学习大牛离职，引用扎克伯格名言作别，未来去向成谜

颇具戏剧性的是， Hinton还曾建议他“不要做强化学习（RL）”，不过话锋一转，老爷子也留有余地——应该做自己认为最好的事情（毕竟他本人当年做的事也不被所有人看好）。其实不止Rishabh Agarw…

08-27

抖音集团副总裁驳斥“人均7月离职”谣言：数据不符，文章疑AI生成

8月26日下午，抖音集团副总裁李亮在社交平台发文辟谣，称近期一篇题为《“人均7个月就走”，工龄争议背后，藏着字节跳动哪些组织秘密》的文章中“人均7个月就走”的说法是谣言。此前，字节跳动在7月底的全员会上已辟…

08-27

小米携手国华智能，共促人形机器人核心部件技术升级与产业发展

此次变更不仅迎来了重量级投资方——北京小米智造股权投资基金合伙企业（有限合伙）（以下简称“小米智造基金”）的入局，同时公司注册资本也实现显著提升，由约935.22万元增至约1047.45万元，增幅达12%，标…

08-27

三星Galaxy S25 FE配置曝光：电池容量增至4900mAh，支持45W快充

08-27

佛罗里达州母亲起诉OpenAI：ChatGPT被指诱导14岁少年自杀

08-27

广汽传祺向往S9预售在即，全系搭载华为ADS 4智驾系统实战直播亮相

08-27

苹果印度再布局：浦那零售店9月4日盛大开业，孔雀羽毛标志亮眼

08-27

德国法院裁决：苹果Apple Watch不得再宣传为“碳中和”产品

08-27

苹果秋季发布会9月9日来袭，iPhone 17 Air成市场关注焦点

08-27

苹果官网可交互Apple标志预热：或暗示iPhone 17新配色发布

08-27

福特CEO吉姆·法利：林肯将谨慎电动化，平价电动车型成新方向

08-27

抖音副总裁李亮驳斥“人均7月离职”谣言：文章疑为AI编造

08-27

美国“人工智能+”应用产业：成本与增长矛盾凸显，探索破局之道

08-27

星舰试飞十次终成功，完成多项任务获马斯克点赞

08-27

点击查看更多 +

全站最新

抖音集团副总裁驳斥“人均7月离职”谣言：数据不符，文章疑AI生成

小米携手国华智能，共促人形机器人核心部件技术升级与产业发展

华为智能汽车CEO靳玉志：乾崑智驾成智能化公共平台，助力汽车生态升级

成都车展预售！长城炮V6火炮配3.0T V6发动机，越野性能再升级

三星Galaxy S25 FE配置曝光：电池容量增至4900mAh，支持45W快充

佛罗里达州母亲起诉OpenAI：ChatGPT被指诱导14岁少年自杀

热门内容

本栏最新

英伟达发布Jetson Thor：赋能新一代机器人，打造超强“智慧心”

英伟达Jetson Thor发布：赋能机器人，AI算力飞跃7.5倍

特斯拉Optimus机器人训练新策略：纯视觉方案，挑战远超自动驾驶

高性价比管道检测服务，揭秘中鉴检测鉴定（CDIC）的机器人检测实力

美的智能体工厂获世界纪录认证，重塑全球智能制造新标杆

500多年前，画家达·芬奇设计了一个名叫“安卓”的人形机器人

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.