在人工智能领域,“世界模型”这一概念正引发广泛关注。它既出现在视频生成场景中,也在具身智能领域有所涉及,不过不同场景下的含义存在差异,甚至看似是完全不同的概念。这种分歧背后,隐藏着该概念漫长而独特的发展历史。
近期,一篇深度博客系统梳理了“世界模型”概念背后两条独立演进数十年的研究脉络。一条是强化学习社区自1990年代便开启的“让智能体在想象中做梦”的探索,另一条是计算机视觉社区从海量人类视频中学习物理知识的“从观看中学习”路径。直到2024至2025年间,这两条线索才真正交汇,催生出如今所说的“视频世界模型”。
世界模型展现出了强大的潜力。一个机器人从未见过解开鞋带的操作,也没有人远程操控它完成,但它却能俯身抓住鞋带并成功解开。这得益于它经过一个模型的训练,该模型观看了数千小时人类双手操作物品的视频,学会了物体在受力时的运动规律,能在动手前预判后续情况,机器人先在想象中反复练习,再接触现实。这体现了世界模型的核心承诺:构建一个对物理世界理解深入到能预测下一步变化并据此行动的模型,它不同于用文字描述世界的语言模型,也非单纯生成画面的视频生成器。
过去18个月,超100亿美元资金涌入这一概念。众多知名人物和机构纷纷布局,Yann LeCun离开meta投身相关模型构建;Danijar Hafner离开DeepMind将其工作商业化;NVIDIA开源一整套相关系统;OpenAI关闭Sora并转型“机器人世界仿真”,相关团队负责人随后也离开公司。然而,如今被冠以“世界模型”之名的很多东西并非真正的世界模型,该术语如今涵盖范围广泛,包括视频生成器、强化学习的梦境机器等。此次两条研究脉络的汇聚及其效果,正是值得探讨的问题。
两条研究脉络的交汇有着特定的背景。一方面,交互式视频模型自2024年起就已存在,但起初只是狭窄的原型。到2025年,两项突破使将通用高质量视频基础模型改造成既具交互性又能实时运行成为可能,这让视频世界模型从研究走向潜在实用基础设施。另一方面,机器人领域长期面临数据匮乏问题,随着行业开始训练基础模型,对数据的需求愈发迫切。当前优秀机器人基础模型依赖约1万小时远程操控数据,但采集成本高、速度慢且多样性有限。世界模型提供新路径,先在数百万小时人类视频上预训练,再用少量机器人数据微调。不过,整个机器人AI领域的成熟度远低于融资规模所呈现的水平,当前多数生产部署依赖视觉 - 语言 - 动作模型(VLA),不过领先的VLA也开始整合小型世界模型用于子目标规划。世界模型在特定场景成果显著,但通用操作任务仍是难题。
“视频世界模型”源于两条独立发展数十年后交汇的研究脉络。线索A是强化学习世界模型(1990—2025),“智能体应构建内部环境模型”理念早于深度学习,1990年Jürgen Schmidhuber将其形式化用于神经网络,此后沉寂近三十年,2018年David Ha和Schmidhuber重新唤醒该概念,其架构分为三个模块,智能体在自身想象中训练后部署到现实并取得成功。Danijar Hafner在此基础上持续深耕,其RSSM架构解决根本表示问题,Dreamer系列不断扩展,从简单控制到复杂任务,MuZero则另辟蹊径,只预测奖励和价值。该脉络核心理念正确,但存在跨环境泛化问题。线索B是从观看中学习(2016—2025),第一阶段用视频预测规划,第二阶段从人类视频学习表示,第三阶段实现大规模视频生成,各阶段都有重要成果,但在融合前缺乏实时响应动作能力。
2024至2026年间,一系列工作弥合了两条脉络的差距。Genie引入潜在动作模型,从无标签视频学习交互式环境;UniSim在视频世界模型内训练强化学习策略并迁移到真实机器人;Xun Huang团队的技术突破扫除剩余障碍,AR - DiT/CausVid实现视频扩散模型自回归和因果形式,Self Forcing解决速度问题,实现实时交互生成。DreamGen证明视频世界模型可用极少真实数据解锁机器人泛化能力,DreamDojoDreamZero集大成,在评估机器人策略和联合预测未来视频与机器人电机动作方面表现出色。最终形成的视频世界模型,架构上师承视频生成,精神上传承强化学习世界模型。
并非所有视频模型都是世界模型,Xun Huang提出五条属性区分二者,因果性和交互性是硬性约束,持久性、实时性和物理准确性是连续谱系。当前各大系统在这些属性上表现各异。
世界模型有多种用例。自动驾驶仿真最为成熟,Wayve和Waymo等公司用学习型世界模型生成驾驶场景测试自动驾驶策略,该应用已在生产环境落地。娱乐与游戏紧随其后,Decart的Oasis、Genie 3、GameNGen等展示了世界模型在游戏领域的应用,不过服务成本高昂。策略评估是机器人领域近期重要价值所在,DreamDojo实现高皮尔逊相关系数,将世界模型变成机器人行为的单元测试。合成训练数据生成前景可期,但边际价值尚不明朗。样本高效学习在受控环境得到验证,但未在生产环境大规模验证。直接机器人控制缺乏验证,DreamZero虽有成果但未独立复现,同时VLA在快速迭代且不断融合世界模型组件,两种方法并非竞争而是融合。
过去18个月,超100亿美元流入世界模型和机器人AI公司,资金分布在四个层次。纯世界模型公司构建仿真器本身,将世界模型作为组件的机器人基础模型公司融资更多。NVIDIA构建完整物理AI技术栈并全部开源,从视频基础模型到机器人大脑,每层均开源,该策略是为物理AI打造“CUDA”,这对纯世界模型初创公司构成威胁。Yann LeCun和谢赛宁通过AMI Labs押注JEPA架构,与像素预测路线相反,V - JEPA 2取得一定成果,但抽象预测能否优于像素预测尚存争议。










