滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

阿里通义万相新突破：静态图+音频，轻松生成电影级数字人视频！

时间：2025-08-28 00:06:01 来源：新浪财经编辑：快讯 IP：北京 发表评论无障碍通道

在科技日新月异的今天，阿里再次展示了其在人工智能领域的深厚积累。近日，阿里通义万相宣布正式开源其最新的多模态视频生成模型——Wan2.2-S2V。这一创新技术允许用户仅凭一张静态图片和一段音频，就能生成面部表情生动、口型同步、动作流畅的电影级数字人视频。

据悉，Wan2.2-S2V单次生成的视频时长可达分钟级别，这一突破有望极大提升数字人直播、影视后期制作、AI教育等多个行业的视频创作效率。目前，该模型已在通义万相官网、Hugging Face及魔搭社区等平台上线，供开发者及行业用户免费试用。

回顾阿里在视频生成领域的探索历程，不难发现其一直走在行业前列。早在7月28日，阿里便开源了包括文生视频、图生视频及统一视频生成在内的Wan2.2系列模型。其中，文生视频和图生视频模型更是业界首个采用MoE架构的视频生成模型，为行业树立了新的标杆。

而仅仅半个多月后，阿里又推出了Wan2.2-I2V-Flash模型，其推理速度相较于前代提升了12倍，进一步降低了使用门槛。此次发布的Wan2.2-S2V则更加注重音频与图像的融合，通过精准的音频驱动技术，实现了画面与音频的完美契合。

在实际体验中，Wan2.2-S2V展现出了惊人的表现力。无论是真人、卡通、动物还是数字人形象，只需上传一张图片和一段音频，模型便能生成一段生动的视频。视频中的主体形象能够完成说话、唱歌、表演等多种动作，且面部表情和口型与音频高度同步。

尤其Wan2.2-S2V还支持不同分辨率的视频生成需求，无论是竖屏短视频还是横屏影视剧，都能轻松应对。该模型还引入了AdaIN和CrossAttention两种控制机制，实现了更准确、更动态的音频控制效果。

在测试过程中，笔者上传了一张动画人物图片并输入了一段文字指令，要求让画面中的角色唱歌。结果令人惊喜，动画人物不仅动了起来，还自行配上了背景音乐，虽然嘴巴线条的识别仍有待提升，但整体效果已经相当出色。

笔者还尝试上传了一张欧美男生的照片和一段中文音频。生成的视频中，人物形象与原图高度一致，面部表情和嘴部动作与音频完美同步，甚至脸上的光线都随着嘴形的变化而变化，展现出了Wan2.2-S2V强大的生成能力。

随着数字人直播、影视制作等行业的快速发展，对高效视频创作工具的需求日益迫切。阿里通义万相此次推出的Wan2.2-S2V模型，无疑为解决这一需求提供了有力的技术支撑。未来，随着技术的不断迭代和完善，相信视频生成领域将迎来更多的创新和突破。

更多>同类资讯

半人马座α星A星宜居带现气态巨行星，椭圆轨道或拓展行星演化新认知

09-22

10倍地球质量！开普勒-725c现身宜居带，或藏生命新可能

09-22

木星磁层电子加速奇景：“擀面杖”效应下的粒子运动探秘

09-22

多学科视角下中国古代家猪驯化与饲养的学术探索与成果分享

09-22

太阳系边缘神秘天体：起源成谜，科研逐梦探寻未知奥秘

09-22

WASP-121b：极端温差下的钛云世界，系外行星的奇幻探索

09-22

土星环步入“中年危机”：物质流失下光环何时彻底消散？

09-22

18国携手观测：“躺转”天王星平流层季节冷暖为何如此极端？

09-22

谷神星阿胡纳穹丘：冰火山中的“盐泥密码”，解锁太阳系早期演化之谜

09-22

火星南极春日“变装”：冰盖消退现多边形霜边与暗色地形，探秘红色星球

09-22

海卫一：冰火山间歇泉喷涌，宇宙冷秘中藏着生命可能？

09-22

早期宇宙现“超级吃货”黑洞：每年吞噬300至3000个太阳质量，挑战生长理论

09-22

冥王星冰火山喷发物藏玄机：或为地下海洋与岩石接触提供关键证据

09-22

NASA“毒蛇”月球车项目复活 2027年将随“蓝月亮”着陆器探月南极

09-22

神舟二十一号发射在即，杨利伟转型引路人，中国航天续写新传奇

09-22

点击查看更多 +

全站最新

雷军官宣小米17系列9月25日发布，卢伟冰称背屏设计斥资10亿，直言不惧友商模仿

雷军官宣小米17系列将发布！同期举办年度演讲，分享芯片汽车故事引期待

雷军官宣：9月25日晚7点开启第6次年度演讲，聚焦《改变》分享玄戒芯片与小米汽车故事

小米17系列9月25日发布，雷军将作《改变》演讲，此前直言全面对标iPhone

雷军官宣小米17系列将发布！同期举办年度演讲，网友直呼期待

‍雷军9月25日晚7点年度演讲，揭秘小米玄戒芯片与汽车背后的创新故事‍

热门内容

本栏最新

NVIDIA50亿美元投资Intel，台积电风险可控，先进制程优势或延续至2030年

复旦团队绘制代谢组图谱：解锁疾病早期预警密码，助力精准医疗

国庆中秋假期将至，租台无人机记录美好旅程成热门新选择

国庆假期出行新选择：无人机租赁受热捧，3C数码租赁市场火热升温

字节跳动凌晨发声：TikTok美国业务将依法推进，服务美国用户不停歇

对话松延动力姜哲源：25岁团队如何从创业民房走向“千台俱乐部”并冲刺交付？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.