当人工智能能够创作出令人惊叹的诗歌,却在描述一个滚落的苹果时忽略重力定律时,这种矛盾揭示了当前AI发展中的一个关键断层:语言模型的繁荣与世界模型的缺失。语言模型擅长在文字的海洋中遨游,捕捉词汇间的微妙联系,却难以理解物理世界的内在规律;而世界模型则试图构建一个虚拟的"心智剧场",让AI能够像人类一样,通过直觉推演来理解空间、时间和因果关系。
世界模型的概念并非新生事物,其根源可追溯至认知科学领域对人类如何想象未来的探索。它本质上是对人类心智中那个无形的"小剧场"的模拟——当我们闭着眼睛也能找到卫生间的位置,或是抛出石头时能在脑海中预演其轨迹,这些能力都源于世界模型对物理规律的隐性理解。相比之下,语言模型更像是一个博学但缺乏实践经验的学者,它知道"苹果"常与"吃"或"手机"相关联,却无法理解苹果坠落的物理原因。
这种差异体现在AI对因果关系和时空连续性的处理上。语言模型可以生成语法正确的句子,如"杯子摔碎了",却难以准确预测碎片的散落方向;而世界模型可能不擅长语言表达,却能默默计算物体运动的力量和轨迹。当前的技术趋势正试图将两者结合,让AI既能流畅表达,又能在虚拟场景中真实地"演绎"事件,从而提供既符合语法又符合常识的回答。
推动世界模型发展的核心动力,在于解决语言模型在物理常识方面的局限性。我们需要的不是更会说话的机器,而是能够真正理解重力、碰撞和光线传播的数字大脑。世界模型的目标是在AI内部建立一个三维空间的心智模拟,使其能够像人类婴儿一样,推测被遮挡物体的运动轨迹,或预判水流的方向。这种能力在具身智能和自动驾驶等领域具有巨大潜力——机器人可以在虚拟环境中安全地练习行走,自动驾驶系统可以在仿真场景中经历无数次极端情况,而无需承担现实风险。
目前,世界模型的技术路径尚未形成统一标准,主要分为三个流派。认知派以图灵奖得主杨立昆为代表,主张通过抽象推理来预测"接下来会发生什么",而非生成具体画面。这种方法的优势在于计算效率高,适合机器人决策系统,但缺乏可视化过程,离商业应用尚有距离。空间派则以李飞飞团队的Marble模型为代表,利用3D渲染技术构建可探索的虚拟场景,商业化前景广阔,但模型更多捕捉世界的表面特征,缺乏对物理规律的深入理解。
第三派模拟器派试图在两者之间取得平衡,如谷歌的Genie 3和阿里的HappyOyster,它们创造交互式视频环境,能够根据用户输入动态演变。这种方法的优势在于画面与用户的双向互动,支持长时间连贯探索,但其内核仍基于视频生成逻辑,未能完全掌握物理因果关系,在需要精确物理推演的领域表现有限。三种路径各有侧重——逻辑、表现或交互——哪种能够最终支撑通用人工智能的发展,目前尚无定论。
这场关于世界模型的探索,不仅涉及技术架构的选择,更反映了对"智能"本质的不同理解。语言模型赋予机器人类般的表达能力,而世界模型则试图让机器像人类一样在行动前默默预演未来——在给出答案前,先让水泼出、球落地、光影流转。当前,认知派的抽象逻辑难以具象化,空间派的视觉表现缺乏物理内核,模拟器派的交互性仍隔着一层因果关系的薄纱。然而,这种多样化的技术路径正表明一个共识:更高阶的智能必须扎根于对时空、因果和物质连续性的深刻理解之中。











