在近日举办的北京智源大会上,具身智能领域的技术路线之争再度成为焦点。随着机器人产业在过去一年快速升温,一个关键问题持续引发讨论:机器人究竟应该选择VLA路线,还是世界模型路线?智平方创始人兼CEO郭彦东博士在大会具身产业CEO论坛的首场主旨演讲中,对这一行业争论给出了明确答案。
郭彦东认为,世界模型并非VLA的竞争路线,而是VLA体系中的核心组成部分。当世界模型与VLA深度融合后,类脑架构将成为下一代机器人大脑的重要演进方向。这一观点背后,是智平方过去三年在技术布局上的持续投入,从端到端VLA,到融合世界模型,再到最新发布的类脑大模型NeuroVLA,一条清晰的机器人大脑进化路线逐渐显现。
世界模型是当前全球具身智能领域的热门话题。部分研究者主张,机器人需先建立对物理世界的理解能力,才能产生可靠行为;而另一些人则认为,VLA直接从视觉和语言生成动作,是更高效的技术路径。郭彦东从生命演化的角度提出,行动能力并非孤立产生,生命需先感知和理解环境,才会产生行动。因此,世界模型负责理解世界,VLA负责作用于世界,二者并非对立,而是统一的整体。
他进一步解释,当前被广泛讨论的“世界模型”本质上是靠海量数据训练出来的,而非物理规律驱动。例如,模型通过大量数据学习到水杯越过桌面会下落、手机屏幕用力敲可能会碎,这是大数据学习的结果。基于此,郭彦东重新定义了VLA:它是多种模态融合的大数据驱动的端到端模型架构的总称。在这个定义下,世界模型与VLA没有本质区别,更不是替代关系。
郭彦东指出,世界模型的核心功能是对物理环境进行稠密、包含时间维度的4D预测,它是VLA空间感知的一部分,能帮助机器人大脑不断优化。以泡茶和做咖啡为例,机器人需要先规划任务顺序,这依赖语言模型的推理能力;同时,它还需预测水杯靠近桌边可能掉落等短程物理现象,这依赖世界模型。只有将二者融合,机器人才能同时具备短程物理预测和长程任务规划能力。
智平方还利用世界模型生成真实环境中难以采集的边缘数据。例如,在采集杯子数据时,可能只采集到桌子中间的样本,而忽略了桌子边缘的。此时,世界模型可以生成桌子边缘的样本,补足VLA的数据短板。
基于这些判断,智平方早在2025年11月就联合北京大学推出了融合世界模型的新一代架构Video2Act,首次实现了“先预测、后执行”的机器人模型范式。在智平方看来,世界模型的最大价值并非生成视频,而是生成行动。机器人不仅需要预测未来,还需基于预测做出决策。
Video2Act并非传统视频生成模型,而是一个融合4D世界模型的VLA架构。通过空间稠密信息建模和动作时序的持续输入,机器人能够提前理解未来状态变化,并将预测能力直接转化为行动决策。这是世界模型首次真正成为机器人行动系统的一部分。在第三方评测中,Video2Act的性能比硅谷同类标杆模型领先超过30%。2026年,由全球顶级学者联合完成的世界模型权威综述中,Video2Act被作为“世界模型+VLA融合路线”的代表性成果重点引用,标志着关于“世界模型还是VLA”的争论正被新的技术范式取代。
当世界模型与VLA融合解决了机器人“看懂世界”的问题后,如何让机器人像人一样稳定、高效地行动成为新的挑战。这也是智平方近期重点突破的方向。在智源大会上,郭彦东介绍了智平方最新发布的类脑具身智能系统NeuroVLA,这是目前唯一同时具备主动感知、故障自恢复与时序记忆三大类生物运动能力的具身智能系统。
郭彦东提出,当前人形机器人研发多关注外形像人,却忽视了如何让大脑更像人。现有VLA架构中,机器人虽具备较强理解能力,但在真实复杂环境中仍存在响应慢、动作抖动、能耗高等问题。原因在于,大多数机器人依赖统一大模型同时处理感知、推理与控制,而人类大脑的工作方式截然不同:皮层负责思考,小脑负责协调运动,脊髓负责本能反射,不同系统在不同时间尺度上协同运作。
借鉴这一机制,智平方构建了全球首个“皮层—小脑—脊髓”三级类脑架构NeuroVLA。其中,皮层负责语义理解和任务规划;小脑负责高频运动协调与动态修正;脊髓负责毫秒级运动执行与安全反射。这一设计让机器人具备了类似生物系统的层级智能能力,显著提升了在真实物理世界中的稳定性、实时性与能效。实验结果显示,NeuroVLA将机器人运动抖动降低75%以上,碰撞后20毫秒内完成反射响应,同时大幅降低系统功耗。
从端到端VLA到Video2Act,再到NeuroVLA,智平方过去三年围绕机器人大脑进行了系统性创新。VLA赋予机器人行动能力,世界模型赋予其理解和预测能力,而NeuroVLA则进一步赋予其接近生物系统的反应与控制能力。这三次演进始终围绕一个方向:如何让机器人拥有更像人脑的“大脑”,逐步接近真正的人类智能。在智源大会的舞台上,郭彦东不仅提出了一套技术方案,更勾勒出下一代机器人大脑的演进路线。











