阿里通义实验室近日推出全新视频创作大模型Wan2.7-Video,该模型突破传统视频编辑框架,支持文本、图像、视频、音频全模态输入,用户可通过自然语言指令实现画面结构重组、剧情动态调整、局部细节优化及时序变化控制。模型核心亮点在于"一句话改视频"功能,能在保持光影材质一致性的基础上,同步处理多张图像输入,实现跨模态素材的无缝融合。
在剧情控制领域,该模型首创视频续写与尾帧控制的联合机制。用户既可指定结尾画面进行定向续写,也能通过多达5个视频主体参考实现复杂场景构建。实验数据显示,模型能精准保留原视频动作序列与镜头运动轨迹,同时支持季节变换、画风转换等全局修改。当测试人员要求将夏日背景改为深秋场景时,系统自动调整植被色彩与光照角度,人物服装光影效果同步适配新环境。
角色编辑系统展现强大适应性。在角色替换测试中,模型成功将欧美男性主角替换为中国男性形象,不仅完整保留原始台词与嘴型同步,还自动修正服装光影以匹配场景光源。更引人注目的是行为修改功能,当指令要求"坐沙发的女生改为站立打游戏"时,系统在保持人物姿势自然过渡的同时,重新计算空间布局与光影反射,确保新动作符合物理规律。
技术团队突破性地将电影工业流程解构为可编程模块。模型内置40余种微表情库,能精准演绎从惊喜到困惑等复杂情绪变化。通过学习大量专业剧本,系统掌握戏剧结构编排规律,可根据"西部片"或"科幻片"等类型指令,自动生成匹配的光影参数与色彩方案。在运镜控制方面,支持推拉摇移等基础镜头语言,更能实现希区柯克变焦等复合技巧,单条指令即可完成从分镜脚本到成片输出的全流程。
多模态参考系统开创行业新标准。除常规图像视频参考外,模型特别优化多宫格漫画转动画功能,能自动识别分镜逻辑并生成连贯动态画面。音频处理模块得到专项强化,通过预训练架构提升人声真实度与音画同步精度,在测试中成功还原乐器演奏的细微力度变化。影视知识库的引入使角色表演更具专业水准,人物走位、手势幅度等细节均符合镜头语言规范。
该模型的推出标志着视频创作进入精准控制时代。传统需要逐帧调整的复杂操作,现在可通过自然语言批量处理。技术文档显示,底层架构经过效率优化,在保持4K分辨率输出的同时,将推理速度提升3倍。这种技术突破正在重塑创作流程,专业团队可专注核心创意,技术实现环节交由智能系统完成,显著降低高质量视频的生产门槛。







