阿里巴巴近日正式推出Wan2.7-Video视频生成系列模型,该系列包含四大核心模块:文生视频、图生视频、参考生视频及视频编辑,标志着AI视频创作从单一素材生成向全流程控制迈出关键一步。这一突破性技术将创作权限从“表演者”扩展至“导演”,通过多模态输入与全链路控制,重新定义了AI视频的生产范式。
针对传统AI视频工具在叙事连贯性、剧情可控性及后期编辑灵活性方面的不足,Wan2.7-Video通过四大专业模型的协同工作构建起完整创作生态。其中,文生视频模块支持从文本描述直接生成720P至1080P分辨率、2-15秒时长的视频内容;图生视频模块则允许用户通过上传图片精准控制画面元素;参考生视频模块可复刻动作、运镜及特效,最多支持5个视频主体同时参考;视频编辑模块更实现“一句话改视频”的革命性突破,通过自然语言指令即可完成元素增删、场景切换及风格转换等操作。
在核心编辑能力方面,该系列模型展现出惊人的创作自由度。创作者可通过文本指令调整角色表情、行为及台词,系统自动匹配口型与音色;拍摄参数如机位、视角、景别等均可重新定义,同一素材可衍生出完全不同的叙事视角。技术团队特别开发的黑白上色与老片修复功能,进一步拓展了AI在影视修复领域的应用场景。参考生视频模块的复刻精度达到行业领先水平,即使复杂动作也能稳定还原,多模态输入支持同时锁定角色外观、音色及动作轨迹。
从剧本创作到成片输出,Wan2.7-Video构建起智能化生产管线。用户输入简短文字描述后,系统可自动生成分镜脚本、编排剧情节奏并设计镜头语言,支持希区柯克变焦、360度环绕等数十种专业运镜方案。为解决AI视频常见的“首尾割裂”问题,技术团队创新性地引入视频续写与尾帧控制联合机制,使创作者既能保持动态连贯性,又能精准控制画面结构。在视听表现层面,该模型可衍生出上千种风格组合,覆盖2D卡通、水墨、黏土动画等多元视觉语言,音频模块则通过预训练技术显著提升音画同步质量与音乐表现力。
据技术文档披露,Wan2.7-Video的突破源于对创作全链路的深度重构。通过将生成能力与编辑能力深度融合,该模型不仅支持从零开始的完整创作,更能对现有素材进行精细化改造。在动作复刻场景中,系统可同时处理5个视频主体的运动轨迹,其多模态理解能力能准确识别图像、视频及音频中的关键信息。这种全模态输入输出体系,使得文本、图像、视频、音频的混合创作成为现实,为专业影视制作与个人创意表达开辟了新的可能性空间。







