ITBear旗下自媒体矩阵:

昆仑万维推出「Matrix-Game 2.0」,引领国产开源世界模型新纪元

   时间:2025-08-12 18:26:42 来源:智东西编辑:快讯团队 IP:北京 发表评论无障碍通道
 

昆仑万维在AI技术领域的探索再次迈出重要一步,其SkyWork AI技术发布周于8月11日正式拉开帷幕。这场为期五天的活动,每天都有一款新模型面世,涵盖了多模态AI的核心应用场景,为行业带来了前沿的技术解决方案。

在DeepMind发布Genie 3,让交互式世界模型备受瞩目之际,昆仑万维也不甘落后。8月12日,公司推出了自研世界模型Matrix系列中的Matrix-Game交互世界模型的升级版——Matrix-Game 2.0。与Genie 3不同的是,Matrix-Game 2.0选择了全面开源,成为业内首个在通用场景下实现实时长序列交互式生成的世界模型开源方案。

Matrix-Game 2.0在实时生成和长序列能力上取得了显著突破。相比上一代,新版本更加注重低延迟、高帧率的长序列交互性能,能够以25 FPS的速度在多种复杂场景中稳定生成连续视频内容,生成时长可达分钟级,大大提升了连贯性和实用性。同时,模型依然保持了对物理规律和场景语义的精准理解,用户可以通过简单指令自由探索、操控并实时构建结构清晰、细节丰富、规则合理的虚拟环境。

Matrix-Game 2.0提出了一种全新的视觉驱动交互世界建模方案,摒弃了传统依赖语言提示的生成模式,转而通过视觉理解和物理规律学习来构建虚拟世界。这一方案避免了语言先验可能带来的语义偏置,更加真实、准确地理解和生成虚拟世界。其基础模型架构以图像为中心的感知与生成机制,包括3D Causal VAE压缩结构、多模态扩散Transformer(DiT)以及用户交互控制模块。

在实时自回归视频生成方面,Matrix-Game 2.0采用了创新的自回归扩散生成机制,克服了传统双向扩散模型的延迟和误差累积问题。通过因果扩散模型训练、分布匹配蒸馏(DMD)以及KV缓存机制等技术手段,实现了长时视频的高效生成,无需重复计算,单GPU上即可实现25 FPS的实时生成。

Matrix-Game 2.0的应用前景广阔,不仅打破了内容生成与交互之间的壁垒,还为虚拟人、游戏引擎、具身智能等前沿应用打开了新的可能。例如,在无约束、不可控的真实场景中,Matrix-Game 2.0可以根据用户输入的任意控制指令(如键盘的W/A/S/D方向键、鼠标用于视角移动),生成对应的交互世界视频,支持角色的前后左右移动以及视角变换等动态行为。

Matrix-Game 2.0还通过三大核心创新突破了传统模型的瓶颈。首先,构建了基于Unreal Engine和GTA5的可扩展数据生产管线,生产了大量高质量交互式视频数据。其次,设计了动作条件控制模块,支持帧级键盘与鼠标交互输入,并采用少步长自回归扩散模型实现实时长序列视频生成。最后,基于领先的架构设计和高质量数据训练,实现了在多个任务上的领先模型,包括Matrix-Game Uni、Matrix-Game TempleRun和Matrix-Game GTA等。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version