阿里近日正式发布新一代视频生成模型——万相2.6系列,凭借音画同步、多镜头生成及角色扮演等创新功能,迅速成为行业焦点。该模型不仅被宣称是全球功能最全面的视频生成工具,更是国内首个支持角色扮演能力的视频模型,标志着国产AI技术在视觉创作领域迈入新阶段。
相较于前代万相2.5,新版本针对专业影视与图像创作场景进行了深度优化。其核心升级包括画质与音效的显著提升、指令响应能力的增强,以及单次生成视频时长延长至国内领先的15秒。更引人注目的是,新增的角色扮演与分镜控制功能,让用户能够通过文本指令实现复杂叙事视频的自动化生成。例如,用户上传一张数字人照片并输入分镜脚本后,模型可在几分钟内生成包含多场景切换、人物动作连贯的15秒剧情短片,且画面主体一致性较高,无明显逻辑漏洞。
在实际测试中,万相2.6展现了强大的场景适应能力。当输入“男生向女生表白”主题的脚本时,模型生成的视频不仅准确还原了递花、对视、拥抱等动作细节,人物嘴型与声音同步度也达到较高水平,尽管情绪表现仍略显机械,但已优于多数同类产品。而在角色扮演功能测试中,用户上传马斯克采访视频后,模型成功将其替换为女性数字分身,神态与姿态高度还原原角色,仅在声音保留男性特征方面存在细微偏差。模型对多人互动场景的处理也有所突破,例如在“赫敏飞奔拥抱哈利”的测试中,虽偶有角色替换误差,但整体动作流畅度与情感表达已接近真实拍摄效果。
技术层面,万相2.6通过多模态联合建模实现画面与声音的全维度一致性。其创新架构可同时解析视频中的主体情绪、姿态、视觉特征,以及音色、语速等声学信息,并在生成阶段将这些特征作为控制条件,确保单人或多人表演的连贯性。在分镜控制方面,模型通过高层语义理解技术,将文本脚本转化为具备叙事张力的专业级多镜头段落,即使在复杂场景切换中,也能保持主体、布局与环境氛围的统一建模。
目前,万相2.6已开放个人用户通过官网直接体验,企业用户则可通过阿里云百炼平台调用模型API。据透露,千问APP也将于近期集成该模型功能。从文生图、图像编辑到文生视频、图生视频,再到人声生视频与动作生成,万相模型家族现已覆盖超过10种视觉创作能力,持续刷新全球功能记录。此次升级不仅巩固了阿里在AI视频生成领域的领先地位,更为专业影视制作、短视频创作等领域提供了高效工具,推动行业向自动化、智能化方向加速演进。











