阿里云近日正式推出新一代视频生成模型——万相2.6系列,标志着国内首个具备角色扮演功能的视频生成技术进入实用阶段。该模型在影视制作与图像创作领域实现重大突破,通过多模态联合建模技术,能够精准捕捉视频中人物的情绪、姿态及多角度视觉特征,同时提取语音的音色、语速等声学参数,确保生成内容在画面与声音维度保持高度一致性。
技术层面,万相2.6创新性地采用时序信息建模机制,可对输入的参考视频进行深度解析。无论是单人表演还是多人互动场景,系统均能自动识别主体动作轨迹,并通过声音驱动技术实现唇形同步与表情匹配。企业用户通过阿里云百炼平台调用API时,可获得每秒30帧的高清视频输出,单段视频时长突破至15秒,达到国内行业领先水平。
功能升级方面,新版本新增角色扮演与分镜控制模块。用户仅需输入文本指令,即可生成包含多镜头切换的专业级视频,支持单人独白、多人对话以及人与虚拟物体互动等复杂场景。在广告设计领域,连续提示词输入功能可自动生成具有完整叙事逻辑的短片,大幅降低影视级内容制作门槛。
应用场景覆盖AI漫剧创作、短视频生产及商业广告制作等多个领域。测试数据显示,该模型已具备文生图、图生视频、人声驱动视频等12项视觉创作能力,其中动作生成精度较前代提升40%,指令遵循准确率达到92%。某短视频团队实测表明,使用万相2.6后,单条视频制作周期从72小时缩短至8小时,成本降低65%。
即日起,个人创作者可通过万相官方网站免费体验基础功能,企业客户则能获得定制化开发支持。技术团队透露,后续版本将重点优化长视频生成能力,并探索虚拟制片、实时互动等前沿应用场景,为数字内容产业提供更高效的创作工具。









