滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

通义万相开源音频驱动视频模型，高效生成自然流畅的数字人长视频

时间：2025-08-27 20:58:35 来源：ITBEAR编辑：快讯团队 IP：北京 发表评论无障碍通道

近期，通义万相宣布了一项重大开源成果——Wan2.2-S2V音频驱动视频模型。这一创新技术仅需一张图片和一段音频，便能生成具有自然面部表情、精准口型同步以及流畅肢体动作的数字人视频，质量堪比电影级别。更令人瞩目的是，其生成的视频时长可达分钟级别，为数字人直播、影视后期及AI教育领域带来了视频创作效率的革命性提升。

Wan2.2-S2V的应用范围广泛，不仅能够驱动真实人物、卡通角色、动物形象，还能生成数字人视频。无论是肖像、半身还是全身图片，只需上传一段音频，模型便能令图片中的主体生动地进行对话、歌唱或表演，展现出极高的灵活性和适应性。

通义团队依托通义万相的通用视频生成技术，结合文本引导的全局运动控制和音频驱动的局部精细动作，成功实现了复杂场景下音频到视频的转换。通过引入AdaIN和CrossAttention两种调控机制，进一步提升了音频控制的精准度和动态表现，使生成的视频更加栩栩如生。

在视频生成时长方面，Wan2.2-S2V单次即可产出分钟级的视频内容，极大地满足了长时间视频制作的需求。这一突破得益于其采用的层次化帧压缩技术，有效减少了历史帧的Token数量，将历史参考帧的长度扩展至73帧，确保了长视频生成的稳定性和连贯性。

Wan2.2-S2V还支持文本控制功能，用户可以通过输入指令对视频画面进行个性化调整，包括镜头运动、角色轨迹规划以及实体间的互动设计，使得视频内容更加丰富多变，视觉体验更为立体。

为了满足不同分辨率场景的视频生成需求，Wan2.2-S2V采用了多分辨率训练技术，并支持多分辨率推理。无论是适合移动设备的竖屏短视频，还是适合大屏播放的横屏影视剧，都能轻松应对，展现出强大的通用性和实用性。

目前，用户已经可以通过Github、HuggingFace和魔搭社区下载Wan2.2-S2V模型，并通过阿里云百炼API调用，或直接访问通义万相官网进行体验。这一开源成果的发布，无疑将为视频创作领域注入新的活力，推动相关行业的快速发展。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

蚂蚁森林9年成绩单：6亿余棵树绿动全国，捐资超45亿助力生态建设

08-27

抖音2025年中反诈成绩单：日均拦截700万诈骗信息，曝光多款假冒App

08-27

Marshall新推派对神器BROMLEY 750，环绕立体声燃爆各种场景

08-27

NVIDIA Blackwell Ultra GPU升级：PCIe 6.0助力，性能飙升50%，功耗高达1400W

08-27

微软WinUI开源计划逐步推进，第三阶段开放第三方代码贡献

08-27

谷歌强化Android安全：2026年起所有应用需开发者实名验证安装

08-27

华为海思芯片技术侵权案终审：14人获刑，商业秘密保护再升级

08-27

小米HyperOS 3明日发布，首批测试机型开放报名，打造更顺心系统

今天，小米澎湃官方正式宣布，小米HyperOS 3来了，即将在明天，也就是8月28日15:00发布，据介绍，目前HyperOS 3 Beta版的首批测试已经开放，机型符号要求的用户已经能够在小米社区开始报名，…

08-27

山东科嘉电气DC240V至750V直流变换器：高效节能，赋能通信与轨道交通

山东科嘉电气的 DC240V 转 DC750V 高压直流供电直流电源变换器是一款专为通信基站、数据中心、工业自动化及轨道交通等领域设计的高效电力转换设备，具备高转换效率、高稳定性、多重保护机制、模块化设…

08-27

吱吱企业通讯：重塑跨部门协作，筑牢企业通讯安全防线

吱吱企业通讯凭借其“私有化部署+全链路加密”双重机制，为企业构建了一套“沟通便捷、通讯安全”的数字化通讯解决方案。三、强化内部风控，为企业数据上把“双保险” 吱吱巧妙平衡“通讯与安全”，精心研发了多重风险预…

08-27

逆市飞扬！仅两家航司A380航班量超越疫情前水平

航空数据分析公司Cirium数据显示，今年全球航空公司计划使用超大型客机执飞的航班仅为89939架次。有两家航空公司却逆势而上，今年计划执飞的空客A380航班数量已超过2019年，分别是英国航空与全日空航空。…

08-27

智慧火电“透视眼”，实时监控与预测维护引领行业新变革

这不仅实现了从锅炉、汽轮机到升压站等关键设备的部件级精细建模（精度可达部件级），更重要的是将实时运行数据（如温度、压力、流量）映射到三维模型中，以三维热力图、彩色云图等形式直观呈现设备状态（如管壁温度、氧化皮…

08-27

物联网连接新选择：NB-IoT、Cat.1、eSIM各领风骚

成本平衡：模组成本较Cat.4降低30%-50%，功耗低于4G但高于NB-IoT，适合对实时性有要求但无需高速传输的场景。随着物联网设备连接需求从“规模扩张”转向“价值深化”，企业需根据设备生命周期、数据传…

08-27

Marshall首款派对神器BROMLEY 750震撼发布，售价7999元

Bromley750售价为7999人民币，将于9月23日在Marshall全球官网开售，于9月30日10点在Marshall中国官方商城上线。 Bromley 750专为室内外多场景打造，IP54级防尘防…

08-27

宇树科技IPO前夕遭专利诉讼狙击，神秘原告曾频诉银行引关注

而起诉宇树科技也并非是周建军涉及的唯一专利诉讼，天眼查显示，建林电气共有49起司法案件，90%身份为原告，涉诉最多案由为侵害发明专利纠纷，被告方多为银行。 2021年，雷军的顺为资本才进入宇树科技，领投千万…

08-27

点击查看更多 +

全站最新

红米Note 15R悄然上架，价格定位让人捉摸不透

荣耀2025年底新品大爆发：Magic 8系列三款旗舰及小平板齐来袭

华为Mate XTs官宣：抢跑iPhone 17系列，9月4日率先发布

iQOO小屏旗舰2026年将袭：6.31英寸+双旗舰芯，中端市场新战火

Vivo X300系列将10月发布，全球首搭联发科天玑9500处理器

vivo Y500深度体验：续航王者，耐用新标杆引领入门机潮流

热门内容

本栏最新

小米HyperOS 3明日发布，首批测试机型开放报名，打造更顺心系统

山东科嘉电气DC240V至750V直流变换器：高效节能，赋能通信与轨道交通

吱吱企业通讯：重塑跨部门协作，筑牢企业通讯安全防线

逆市飞扬！仅两家航司A380航班量超越疫情前水平

智慧火电“透视眼”，实时监控与预测维护引领行业新变革

物联网连接新选择：NB-IoT、Cat.1、eSIM各领风骚

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.