ITBear旗下自媒体矩阵:

阿里云栖大会发布7款大模型,通义万相Wan2.5-preview成AI视觉生成新标杆

   时间:2025-09-26 18:35:18 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在杭州举办的云栖大会上,阿里巴巴集团一口气发布了七款人工智能大模型,其中最受瞩目的当属通义万相Wan2.5-preview。这款全模态视觉生成模型首次实现了音画一体的视频生成功能,标志着阿里在多模态技术领域取得了重大突破。

据阿里云智能集团首席技术官周靖人介绍,通义万相Wan2.5-preview采用了原生多模态架构,将文本、图像、音频等不同模态的数据统一处理。该模型集成了文生视频、图生视频、文生图和图像编辑四大功能模块,能够生成电影级别的视频内容,为用户提供全感官的叙事体验。

在实际测试中,Wan2.5-preview展现出了惊人的文本理解和推理能力。用户只需输入一段文字描述,模型就能自动生成与之匹配的语音和视频画面,且人物口型与语音完美同步。例如,当输入一段关于白人女性拆礼物的详细描述后,模型不仅生成了逼真的光影效果和人物表情,还精准还原了钢琴声和人物对话。

这款模型在视频生成方面实现了多项升级。视频时长从原来的5秒延长至10秒,支持24帧每秒的1080P高清输出,能够生成更完整的剧情故事。在操控性方面,模型对复杂指令的理解能力显著提升,可以完成运镜控制和人物变身等高级图像编辑任务。

Wan2.5-preview的最大亮点在于其原生多模态架构。这是国内首个将声音、图像、文本作为统一语料进行训练的模型,能够在同一框架下完成多种任务。相比传统非原生架构,这种设计避免了信息损耗和误差累积,使模型具备了更强的跨模态推理和生成能力。

在图像生成方面,该模型的美学质感和指令遵循能力都有显著提升。它能够根据复杂的诗歌描述生成意境匹配的图片,在图表生成和文字稳定性方面也表现出色。图像编辑功能支持丰富的指令操作,同时保持视觉元素的一致性。

具体应用案例展示了模型的强大能力。在生成婚礼求婚场景时,模型不仅准确还原了人物动作和光影效果,还完美匹配了婚礼进行曲和新郎的对话。对于极快语速的RAP说唱,模型也能确保人物口型与语音同步,毫无破绽。

音效生成是Wan2.5-preview的另一大特色。在骑士骑马和女子打网球的场景中,模型生成了马蹄声、裁判哨音、网球撞击声等环境音效,大大增强了视频的真实感。对于跳舞场景,模型还能根据描述生成匹配的背景音乐,准确把握嘻哈风格的节奏特点。

目前,用户可以通过阿里云百炼平台调用API,或直接在通义万相官网体验这款模型。阿里提供的官方数据显示,通义万相系列模型已支持十多种视觉创作功能,累计生成了3.9亿张图片和7000万个视频,成为中国调用量最大的视觉生成模型之一。

在开源领域,通义万相也取得了显著成果。自今年2月以来,该系列已连续开源20多款模型,在开源社区和第三方平台的下载量超过3000万次,成为最受欢迎的视频生成模型之一。随着世界模型的面世,阿里在人工智能领域的布局将更加完善。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version