英伟达机器人研究主管Jim Fan近日提出,人工智能领域正迎来第二次预训练范式转型——从“下一个词预测”转向“世界建模”。他认为,2026年将成为大世界模型(Large World Models)在机器人技术与多模态AI领域取得实质性突破的关键节点。
Jim Fan将世界建模定义为:在给定动作的前提下,预测未来世界状态的合理演变。这种技术不仅涵盖视频生成领域,更将延伸至物理交互场景。他指出,当前视频生成模型本质上是可学习的物理模拟器,能够通过捕捉反事实情景(即预测不同动作可能产生的结果)实现推理能力。这种以视觉为中心的建模方式,与依赖语言主干的视觉语言模型(VLM)形成鲜明对比。
在对比两种技术路线时,Jim Fan强调,VLM体系将视觉信息压缩后输入语言模型,导致物理交互所需的细节信息大量丢失。以机器人操作为例,VLM可能准确识别“可口可乐瓶”,但无法预测倾倒后液体流动的物理轨迹。这种知识导向的设计,使得VLM在物理世界建模方面存在先天局限。相比之下,世界建模要求模型直接处理3D运动、触觉反馈等原始感知数据,构建更完整的物理认知体系。
生物学视角的论证为这一观点提供有力支撑。Jim Fan指出,人类大脑约三分之一的皮层用于视觉处理,而语言功能仅依赖相对紧凑的脑区。猿类动物虽不具备高级语言能力,却能完成复杂机械操作,这印证了物理智能可以独立于语言系统发展。他预测,未来AI推理将突破语言框架,形成基于视觉模拟的思维链,通过几何关系与物理接触直接解决问题。
技术实现层面面临多重挑战。Google DeepMind世界模型团队负责人Jack Parker-Holder指出,该技术需同时满足交互式媒体与具身智能的需求,其核心价值在于跨领域泛化能力。但前英伟达研究主管Arsalan Mousavian提醒,从像素到物理的转化存在显著技术鸿沟,模型需解决几何一致性、实体同一性保持、实时推理速度等关键问题。特别是在机器人控制场景中,模型必须在计算资源与响应频率间取得平衡。
产业界已开始加速布局。李飞飞创立的World Labs近期启动5亿美元规模融资,公司估值达50亿美元;meta首席AI科学家LeCun新成立的AMI Labs也获得资本关注,传闻融资估值达35亿美元。这些动向表明,头部科技企业正将世界建模视为下一代AI基础设施的核心方向。技术社区的讨论则聚焦于非语言推理的可行性,许多研究者认为,基于视觉的物理模拟有望成为机器人领域的“GPT-3时刻”。
Jim Fan的论述延续了其2025年对机器人技术路线的批判性思考。当时他便指出,VLM体系在物理交互场景中存在根本性缺陷,而世界建模提供了一种更接近生物智能的解决方案。随着智能眼镜等新型感知设备的普及,原始视觉数据的获取成本持续降低,这为训练具备物理认知能力的模型创造了条件。不过,如何定义最优训练目标、选择合适的潜在空间表征,仍是待解决的开放性问题。











