当斯坦福教授李飞飞为“世界模型”划出功能分类的学术地图时,北大EvoPhys团队与摩尔线程正用一款名为EvoPhys-World的5D模型,在物理世界与数字空间的交界处架起一座新桥。这款模型突破了传统视觉语言动作框架,将感知、预测、决策与行动压缩进同一隐空间,试图让机器人从“条件反射式执行”进化到“预演后果后决策”。
在机器人操作场景中,传统VLA模型如同条件反射的机械臂:看到杯子后直接抓取平移,中间缺乏对物理规则的理解。4D世界模型虽能预测动作后果,却仅停留在“观看物理电影”的层面——它知道用力推杯子会翻倒,却无法理解翻倒阈值与杯中水量、桌面摩擦力的关联。而EvoPhys-World的5D架构引入动作与因果维度,使模型能同时推演多条世界线:当手指触碰杯沿时,杯子可能因受力点偏移而旋转;若桌面存在水渍,滑动距离会因摩擦系数变化而缩短。这种能力让机器人从“预测观众”升级为“剧本导演”,在行动前完成对物理后果的快速模拟。
模型的核心架构由“世界引擎”与“世界策略”双螺旋构成。前者承担“想象”功能,输入动作指令后生成符合物理规律的世界状态变化;后者负责“行动”,根据目标反向推导最优动作序列。二者形成闭环:策略执行结果反馈至引擎优化预测精度,引擎生成的精准预测又反哺策略生成。这种设计摒弃了传统机器人训练中“仿真-决策”的割裂模式,转而通过“知行互训”实现螺旋进化——机器人不再机械重复预设动作,而是在虚拟空间中进行万次实验后选择最优方案。
在技术路线上,EvoPhys选择与英伟达截然不同的“人本主义”标准。当Cosmos 3将动作定义为机械臂关节角度时,EvoPhys优先训练模型理解人类五指操作:捏杯子、拧瓶盖等动作的数据采集设备、机器人本体与远程操控设备共享统一数据接口。这种设计使人类交互数据可直接用于模型训练,学到的行为能无缝迁移至机器人本体。在机器人形态尚未统一的当下,这种“以人为本”的工程标准,让模型摆脱了对特定硬件的依赖。
硬件层面的博弈同样激烈。EvoPhys团队将模型部署在摩尔线程MTT S5000千卡集群上,这款芯片的特殊性在于保留完整图形渲染管线——世界引擎需要实时“绘制”杯子被推倒的画面,世界策略则需基于渲染结果计算下一步动作。英伟达数据中心卡为追求极致算力阉割了渲染模块,而摩尔线程的“全功能GPU”恰好满足世界模型对“渲染-训练”一体化的需求。这种架构差异暗示着新的行业标准争夺:若5D模型证明需要“会画画”的芯片,英伟达可能被迫在下一代产品中恢复渲染功能。
李飞飞的学术框架为行业指明“渲染器-仿真器-规划器”的融合路径,但EvoPhys的实践已超越这一阶段。其“一个基模,两种形态”的架构,将仿真器与规划器从诞生起就嵌入同一隐空间,通过动态闭环实现功能互馈。这种设计消解了“先分后合”的渐进论,转而追求知行合一的持续进化——没有静止的“大一统”终点,只有不断优化的螺旋上升。
当英伟达用20万亿token构建开放生态时,EvoPhys团队更关注物理世界的真实数据积累。据行业估算,GPT-5训练语料约100亿小时,而高质量具身数据仅50万小时,差距达万倍。这揭示出当前AI竞赛的深层矛盾:算力可通过资本堆砌获取,但物理世界的因果理解必须依赖真实交互数据的缓慢积累。EvoPhys选择押注“仿真器”这一价值最深远却最难啃的领域,或许正因看透了这场竞赛的本质——定义权不在数据规模,而在对物理规则的理解深度。











