ITBear旗下自媒体矩阵:

专访智源研究院王仲远:世界模型尚处早期,却是机器人未来“大脑”关键

   时间:2026-06-15 18:33:00 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近期,“世界模型”成为人工智能和机器人领域的热门话题。随着具身智能在过去两年快速发展,人们逐渐意识到当前AI在物理世界中的局限性——机器人能够识别物体,却难以理解“推杯子会掉”的物理规律;能听懂指令,却无法预判“拧瓶盖需要多大的力”。世界模型的出现,正是为了弥补这一短板,让机器人真正学会物理世界的因果关系。

具身智能与世界模型的关系,本质上类似于“身体”与“大脑”的协作。与此同时,大模型在经历了语言、视觉和多模态的探索后,正面临从虚拟世界向真实世界跨越的关键阶段。然而,尽管资本和技术资源大量涌入,世界模型的具体实现路径仍不清晰。

北京智源人工智能研究院院长王仲远指出,当前全球对世界模型的探索正沿着四条主要路线展开:第一条是以语言为中心,如VLM和VLA模型,通过文本空间预测下一个词元,但无法理解背后的物理后果;第二条是以像素为中心,如Sora等视频生成模型,在视觉空间中学习图像和视频,但缺乏对物理因果的把握;第三条是以三维结构为中心,如3D重建和李飞飞团队的World Labs Marble模型,虽然能够重建3D空间,但几何结构并不等同于物理状态;第四条是以视觉表征为中心,如杨立昆的JEPA系列模型,通过压缩视觉表征进行预测,但视觉嵌入的演化并不代表物理规律的演化。

作为国内世界模型领域的重要力量,北京智源人工智能研究院提出了第五条路径——以语言和视觉为中心,融合统一的“潜空间表征”。这一方法将所有模态数据压缩到同一个潜空间中,再通过不同的“解码器”还原成视频、动作或位置信息。王仲远比喻说,潜空间就像一张“万能草稿纸”,机器人可以将看到的画面和听到的指令压缩成一种只有AI能理解的“密语笔记”,并在需要时根据同一份笔记生成后续场景或执行动作。

王仲远认为,世界模型的发展仍处于早期阶段,类似于深度学习在2012年前后的状态。当时,数据孤岛问题严重,技术路线尚未明确,行业标准也未统一。他指出,世界模型要真正“上岸”,需要在多个维度上取得突破:首先,模型生成的画面必须符合真实物理规律,而不仅仅是看起来真实;其次,模型需要具备长时序一致性,能够理解连续变化的状态;最后,模型必须能够进行因果逻辑推断,理解动作与结果之间的关系。世界模型还需要作为基座模型应用于多种场景,而非仅服务于单一任务或演示。

在应用层面,王仲远认为世界模型的价值将主要体现在两个方向:一是突破具身智能的瓶颈,服务于机器人领域;二是广泛应用于严肃工业、物理仿真和科学研究等真实场景。他表示,世界模型有望成为真正的“机器人大脑”,解决当前VLA和VLM模型无法处理的泛化、长程任务和主动探索问题。不过,这一过程可能需要三年甚至更长时间。

王仲远进一步解释了世界模型与具身智能的关系。他认为,具身智能目前仍处于非常早期的阶段,大多数模型只能执行单一场景下的被动任务,难以泛化到复杂多变的真实世界。世界模型的出现,正是为了弥补这一短板。他以酒店或家庭环境中的机器人为例,说明世界模型如何帮助机器人根据当前环境和历史记忆做出复杂推理,并选择最优动作执行任务。

在技术难点方面,王仲远指出,真实物理世界数据的缺乏是当前世界模型发展的最大障碍。与大语言模型依赖互联网数据不同,世界模型需要足够多、高质量的真实物理数据。尽管视频数据易于规模化,但其中蕴含的物理信息尚未被充分挖掘。真实交互数据、异构感知数据和动作轨迹数据也同样重要。他提到,仿真数据可以弥补部分不足,但完全依赖仿真数据训练的模型能否真正理解物理世界仍需验证。

对于世界模型的短期落地,王仲远认为,具身智能将首先在特定场景中实现应用,如工厂分拣、打包或酒店服务等To B领域。这些场景不仅能够产生商业价值,还能为未来世界基座模型的训练提供宝贵数据。他强调,技术路径的探索不能等待所有数据准备就绪,而是需要技术与产品同步推进。

当被问及世界模型与大语言模型的发展阶段对比时,王仲远表示,世界模型目前大约处于2012年深度学习初期的水平。尽管数据缺乏和技术路线未定是主要挑战,但他认为,随着视频数据的进一步挖掘和具身机器人在真实场景中的落地,世界模型可能会在三到五年内进入爆发阶段。他还指出,在世界模型领域,中国与海外处于同一起跑线,没有明显差距。

关于未来竞争的核心,王仲远认为,真正的世界基座模型必须具备真实物理可验证能力、长时序一致性、因果逻辑推断能力以及通用泛化能力。他强调,世界模型的价值最终需要通过系统和产品来证明,只有在机器人、物理仿真和科学实验等真实任务中发挥作用,行业才会逐渐形成对世界模型的统一定义和技术路线。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version