ITBear旗下自媒体矩阵:

李飞飞最新万字长文:渲染、模拟、规划合流,AI正在迎来「统一世界模型」时刻

   时间:2026-06-04 18:46:47 来源:Z Finance编辑:快讯 IP:北京 发表评论无障碍通道
 

世界模型正在经历一场"概念通货膨胀"。从视频生成到物理引擎,从游戏AI到机器人控制,所有东西都被塞进同一个名字里。

李飞飞和World Labs的最新万字长文,试图用一张几十年前的老图「POMDP循环」来重新校准行业的认知。她的核心论点很简单:今天所有被称为"世界模型"的东西,本质上都是同一个感知-行动循环的不同投影,应该被分为三类:输出像素的渲染器,输出状态的模拟器,输出行动的规划器。

而连接"好看"与"好用"的枢纽,是长期被低估的模拟器。当这三者开始融合,AI才算真正从「谈论世界」走向「理解世界」。

以下是全文翻译。

世界不是由词语构成的。

在早先的一篇文章中,我们提出:空间智能是AI的下一个前沿,而世界模型是通往它的路径。在这里,我和World Labs的团队想再深入一层:在那些正在被构建、并被称为"世界模型"的诸多事物中,究竟是哪些功能模块真正构成了这种能力——以及,每一个模块究竟是用来做什么的?

语言模型赋予了机器对概念、词汇和推理的非凡掌控力,但物理世界——无论是虚拟的还是现实的——运行在一种完全不同的底层基质之上。如果说语言模型学习的是文本的统计结构,那么世界模型学习的就是空间与时间的统计结构:光线如何落在物体表面,一个花园在从未被相机捕捉过的角度看起来是什么样子,物体如何响应外力并遵循物理定律。

这使得"世界模型"成为当今AI领域最重要、也最被滥用的术语之一。计算机视觉、机器人学、强化学习和生成式AI都在声称自己正在构建世界模型,但每一个领域所指的东西都截然不同。一个能生成华丽但物理上不可能火焰的视频模型,一个能即兴编出可玩游戏的大型语言模型,以及一个能忠实模拟燃烧过程的物理引擎,全都共享同一个名字。

古希腊人永远无法就世界由什么构成达成一致——无论是火、水,还是不可分割的原子——因为"世界"从来就不是单一的东西。它始终是一个占位符,代表着某位思想家需要推理的任何总体。AI继承了同一个问题,而这个问题出现的时机,恰恰是领域最需要精确性的时刻。

分类学之下的循环

要穿透这种混乱,需要从一张比任何相关技术都更古老的图开始。强化学习教科书,包括经典的Sutton和Barto的著作,几十年来一直在使用同一个画面来描述智能体如何与世界互动。这幅图的正式名称是部分可观察马尔可夫决策过程(POMDP),而"世界模型"这个术语的原始定义正属于这一传统。

一个智能体——可以是一个人、一个机器人,或一个软件系统——采取行动(actions)。这些行动影响世界的状态(state)。智能体永远无法直接看到状态。抵达智能体的是观察(observations):落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观察催生新的行动,循环继续。

"状态"这个词需要拆解,因为它的含义在不同领域间会发生偏移。这不是化学家所说的状态——固液气之间的区别。这是物理学家和机器人学家所说的状态:对某一时刻世界中正在发生的一切的完整描述,包括每一个物体、每一个位置、每一个速度、每一个属性。状态是世界的底层现实;在原理上是完整的,但对身处其中的任何智能体而言,永远无法直接可见。观察是智能体对那种现实的部分视角。行动是智能体对此做出的回应。

这个循环——从智能体到行动,到状态,到观察,再返回——正是赋予现代"世界模型"一词其技术含义的结构。这个词本身更古老,可追溯至Kenneth Craik在1943年的提议,即心智通过运行现实的"小规模模型"来进行推理;并在1980年代末至1990年代初被引入神经网络领域。而这个循环也解释了今天人们使用这个术语时的含义。那些现在被称为世界模型的不同事物,实际上都是这个同一循环的不同投影。每一种都输出这个循环中的不同片段。

世界模型的三种功能

第一种世界模型是渲染器(Renderer)。

渲染器输出的观察结果以像素形式呈现,供人眼观看,其最重要的品质是视觉保真度。一个将文本提示转化为电影级航拍镜头的视频模型就是渲染器。Google的Genie 3,或World Labs自家的RTFM这类交互式系统也是,模型根据用户输入实时生成帧。这种模型并不具备对三维结构的显式理解。它生产的是观看者会看到什么,而非实际是什么。航拍镜头中的建筑物从上方看可能完美无瑕,但试着开车穿过下方的城市,它们就会分崩离析。

第二种是模拟器(Simulator)。

模拟器输出的是状态:一种在几何、物理或动力学上忠实于世界的表征,人类和计算机程序都可以在其上进行计算和交互。如果说渲染器的契约纯粹是视觉的,那么模拟器的契约就是结构性的——它要求经得起检验的几何、尊重牛顿定律的物理,以及在给定物理定律下世界应有的动态行为。模拟器同时服务于两类消费者。人类专业人士——建筑师、设计师、电影人、游戏开发者——需要超越视觉合理性的精确度。计算机程序——强化学习智能体、机器人控制器、自动驾驶汽车——则将模拟器用作训练场,在其中它们可以大规模地与世界互动,测试那些在现实中危险、昂贵或不可能运行的场景。

第三种是规划器(Planner)。

规划器输出的是行动。给定一个观察和一个目标,规划器回答的问题是:智能体下一步应该做什么。这在很多方面上是渲染器的逆过程。渲染器以行动为输入、产出观察;规划器以观察为输入、产出行动,从而闭合了感知-行动循环。视觉-语言-行动模型(VLA)、基于模型的系统,以及新一轮的世界行动模型(World Action Models),都是规划器的尝试:能够在非结构化世界中决定机器人该做什么的系统。

这三个类别描述了当今实际交付的大多数成果,它们之间的区分在实践中很有用。然而,这些类别并非在根本上是分离的。关于世界如何运作的同一套底层知识——几何、物理、动力学——支撑着它们全部。一个能从任意角度渲染杯子的模型,在原则上应该也能模拟杯子被推动时会发生什么,并规划出一只手如何拿起杯子。越来越多的最有趣的研究正在刻意模糊这三者之间的边界。

为什么模拟器是枢纽

在这三个类别中,模拟器获得的公众关注最少,却是三者中后果最为深远的。本文正是要处理这种不对称。

渲染器是目前商业上最成熟的。一批图像或文本生成视频的产品正在消费者和企业市场快速扩张。Google的Nano Banana模型已将渲染器级别的图像生成能力交到可能数亿用户手中。技术是真实的,市场也是真实的。然而,渲染器优化的是视觉合理性而非物理准确性,而这个天花板很重要。它们的输出很美,但不能被信任用来设计一栋楼或训练一个机器人。

规划器是最引人入胜、也最处于萌芽阶段的,它与快速发展的机器人学习领域紧密相连。该领域在过去两年产出了一些在视频中看起来令人印象深刻的机器人演示,但我们需要坦诚地说明这些演示实际展示了什么。几乎所有演示都被限制在高度受控的实验室环境中,使用狭窄的物品集合和短任务跨度。没有一个在真实世界部署所需的复杂性、多样性或持续时间上得到验证。

从一段令人信服的演示片到能在厨房、仓库或手术室中可靠工作的机器人之间,鸿沟依然巨大。尽管如此,商业押注却是巨大的。一波资金雄厚的入局者正在竞相交付通用规划系统,而最大的基础设施玩家则将规划器定位在更广泛的模拟栈之上。一个能规划的机器人就是一个能工作的机器人,整个行业都在竞相成为第一个抵达终点的人。

模拟器是连接两者的桥梁。 如果说语言是对世界的抽象,像素是对世界的投影,那么几何、物理和动力学就是世界本身。模拟器必须在这个层面上运作:它是结构性骨架,从中既可以推导出视觉外观(供渲染器使用),也可以推导出行动后果(供规划器使用)。

一个掌握模拟的模型,可以将其理解投射到像素中供人类消费,也可以投射到行动预测中供具身智能体使用。一个只掌握渲染或只掌握规划的模型,则无法做到这些。其商业覆盖面是巨大的。仅NVIDIA的Omniverse就瞄准了该公司估计超过万亿美元的潜在市场,涵盖工厂、仓库、供应链和数字孪生。机器人训练、自动驾驶测试、建筑可视化、工程学和药物发现,全都依赖于某种模拟形态。

该领域最困难的开放性问题也集中于此。具有显式几何、材料属性和物理标注的三维数据,比渲染器训练的互联网视频稀缺数个数量级。模拟到现实的鸿沟(sim-to-real gap)——即事物在模拟中表现与在现实中表现之间的差异——依然存在。生成式模拟器在此基础上引入了新的风险:AI生成的几何可能看起来正确,却包含自相交或错误的尺度,从而产生荒谬的物理效果。大规模多物理场模拟——刚体、可变形物体、流体和布料全部相互作用——仍比单域模拟昂贵数个数量级。

在World Labs,Marble是我们进入这一领域的第一步。它接收多模态提示(文本、图像、视频或空间草图),生成可探索的3D环境,输出高斯泼溅(Gaussian splats)以供视觉探索,同时输出碰撞网格供物理引擎操作。但Marble只是一个更长篇章的第一章,随着渲染、模拟和规划之间的界限开始消融,整个领域正在书写这个篇章。

边界正在消融,以及接下来会发生什么

但还有更多。该领域目前最重要的模式是:这三个类别开始相互融合。共同的洞见在于,渲染一个世界、模拟一个世界、在其中行动所需的知识,在很大程度上是同一套。延续前面的例子,一个真正理解杯子如何放在桌面上的模型(它的几何、材料属性、对力的响应等),应该能够从任意角度渲染那个杯子,模拟杯子被推动时会发生什么,并规划出一只手如何拿起杯子。这三个类别,是同一套底层理解的三种投影。

例如:来自各个机器人实验室的一小部分但日益增长的近期工作已经表明——至少在概念上——一个预训练的视频渲染器可以被用作联合世界与行动预测的骨干,通过在单一模型中想象会发生什么以及该做什么,在渲染器和规划器之间架起桥梁。World Labs的Marble已经能从单一模型中同时输出高斯泼溅和碰撞网格,消融了渲染器与模拟器之间的边界。每一个层面都在从被动输出转向交互系统:渲染器变得以行动为条件,模拟器生成更可控、更可编辑的世界,规划器从单纯反应走向深思熟虑。

逻辑终点是一个统一的世界模型: 一个基础模型,能够渲染照片级真实的视图,产出物理上精确的结构,并规划行动序列,根据下游消费者需要什么而在输出模态之间切换。我们仍将面临一系列艰巨的挑战。数据图景是不均衡的:渲染器被互联网视频淹没,而模拟器和规划器则面临3D资产和机器人演示的急性短缺。对视觉美感的优化可能牺牲机器人或高保真模拟所需的精确度。在单一架构内部调和这些张力,是当今世界模型研究的决定性开放问题,而这也是World Labs在继续进化Marble时所致力于解决的。

然而,方向是明确的。该领域自1980年代末以来一直在做的同一个赌注——一个足够丰富的世界模型就是任何智能体去看世界、建造世界、在其中行动所需的全部——正是这个赌注现在驱动着整整一代研究。赋予这个"大赌注"重量的是已经正在发生的融合:三条线索,每一条自身已经在推动和塑造着价值数十亿美元的产业,它们始于不同的研究项目,却开始表现得像同一个东西。当它们之间的边界崩塌,它们将共同重塑某种更大的东西:机器智能与它所居住的物理世界之间的关系——空间智能的长弧。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version