在2025杭州云栖大会上,阿里巴巴一连发布七款人工智能大模型,其中通义万相Wan2.5-preview凭借音画一体视频生成能力引发行业震动。这款被阿里称为"最强全模态视觉生成模型"的新品,首次实现文本、图像、音频多模态输入与高清视频输出的无缝衔接,标志着视觉生成技术迈入电影级全感官叙事时代。
技术架构层面,Wan2.5-preview采用原生多模态训练框架,将声音、图像、文本作为统一语料进行模型训练。阿里云智能CTO周靖人透露,这种创新架构使模型具备跨模态推理能力,例如可根据充满隐喻的诗歌文本生成意境匹配的视觉画面。在图像生成质量上,模型支持24帧/秒的1080P高清输出,运镜指令遵循能力显著提升,可实现人物变身等复杂编辑任务。
实际测试显示,该模型在视频生成时长、画质、操控性三方面取得突破。单次生成视频时长从5秒延长至10秒,支持更完整的剧情叙事。在"白人女性拆礼物"场景测试中,模型精准还原了钢琴声、环境音效与人物对话的时空同步,连木柴燃烧的噼啪声都清晰可辨。更复杂的"婚礼求婚"场景里,新郎的誓言与婚礼进行曲的节奏配合毫无违和感,光影效果达到电影级水准。
多模态交互能力成为最大亮点。用户输入"VR玩家说唱"提示词时,模型不仅生成充满未来感的虚拟竞技场画面,更将Rap歌词的每个音节与人物口型精确匹配,即便语速极快也看不出破绽。在"深海特工"测试案例中,模型通过"图+文"输入生成了原本不存在的虎鲨背鳍,同时合成声呐扫描音、水流动响等12种环境音效,构建出沉浸式深海场景。
运动场景音效生成能力同样惊艳。在"骑士骑马"测试中,模型精准捕捉马蹄腾空、落地的力学节奏,同时合成远处裁判哨音与风声的层次变化。"女子网球"场景则还原了球拍破风声、球网撞击声与观众低语的立体声场,这些细节使AI生成内容几乎无法与实拍视频区分。
音乐生成领域,模型展现出对场景氛围的深度理解。当输入"黑人女子街舞"提示词时,自动生成的鼓点与贝斯旋律完美契合嘻哈风格,背景人群的掌声节奏与舞者动作形成巧妙呼应。技术团队透露,这种语境感知能力源于多模态预训练架构对海量视听数据的深度解析。
目前用户可通过阿里云百炼平台调用API,或在通义万相官网直接体验。数据显示,该模型家族已支持文生图、图生视频等10余种创作模式,累计生成3.9亿张图片和7000万个视频,成为中国调用量最大的视觉生成平台之一。自今年2月开源以来,20余款模型在社区的下载量突破3000万次,持续领跑开源视频生成领域。