近日,通义万相正式发布Wan2.2-Animate模型,该模型以“单张人物图片+动态视频”为输入,可实现动作迁移与角色替换功能。无论是让静态角色完成舞蹈复现,还是将影视作品中的主演替换为其他形象,均能生成具有电影级质感的动态画面,适用于剧情魔改、影视后期换人等创意场景。
该模型通过四大核心技术实现突破性进展。在架构设计上,采用统一模型范式,将“图生动作”(Move模式)与“视频换人”(Mix模式)整合为同一符号系统,模型可根据输入内容自动切换生成模式,避免了独立训练两个模型的资源消耗,显著提升开发效率。
在动作与表情控制方面,模型将控制信号拆分为身体运动与面部表情两部分。身体动作通过VitPose提取的2D骨骼信号注入初始噪声潜在向量,确保动作迁移的精准性;面部表情则直接编码参考视频的原始人脸图像为帧级隐式特征,通过时序对齐交叉注意力机制实现细节复现,避免传统关键点标记导致的信息丢失,可完美还原微表情变化。
针对角色替换后的光影适配问题,模型在Mix模式下引入Relighting LoRA模块,基于IC-Light合成数据训练,能够同步学习目标视频的环境光照与色彩风格。该技术使新角色与原场景的光影效果自然融合,而非简单叠加,且支持包含运镜、镜头抖动等复杂动态的视频处理。
为推动技术普惠,模型开源了完整工作流,包括模板视频处理代码(将驱动视频转换为模板文件)与模型推理代码(基于模板文件和角色图片生成最终视频)。这一举措为姿态驱动类模型的优化提供了基础工具支持。
目前,用户可通过通义万相官网的国内与国际站点在线体验该功能,仅需上传人物图片与视频即可生成效果。开发者则可通过阿里云百炼平台接入API,模型代码已同步发布于ModelScope、Hugging Face及GitHub三大开源平台,便于进行二次开发与创意实践。