全球具身智能领域迎来重大突破,自变量机器人团队成功研发出全球首款基于“事件级预测”的具身智能世界模型WALL-WM。该模型突破了传统模型依赖时间帧进行动作学习的局限,将预测单元从物理帧升级为语义事件,使机器人对任务的理解与执行能力实现质的飞跃。这一创新标志着具身智能技术正式迈入以语义理解为核心的新纪元。
传统视觉-语言-动作(VLA)模型采用逐帧预测动作块的训练方式,导致机器人只能机械记忆物理运动轨迹,而无法理解动作背后的目标意图。当面对更换物品位置或调整操作场景等任务时,这类模型常因缺乏泛化能力而出现操作失误。研究团队在学术论文中指出,文本、视觉与动作信息在真实世界中具有不同的时间尺度特征,强制在单一空间对齐会破坏预训练的几何先验结构。
针对行业痛点,WALL-WM模型构建了“事件中心”的全新架构。该系统通过动作边界识别技术,将复杂任务拆解为伸手、抓取、移位等具有明确语义的事件单元。在执行过程中,模型首先预演事件引发的环境变化,再将视觉变化转化为机械臂的运动指令。这种预测机制使机器人能够主动思考任务目标,而非被动执行预设动作。
为确保模型在真实物理环境中的稳定性,研发团队实施了多项工程创新。系统采用双模式架构设计,既支持基于事件预测的变长动作输出,也能实现实时闭环控制。通过视频模型与动作模型的解耦训练机制,有效防止动作数据对视觉先验的干扰。针对多摄像头感知问题,模型引入视锥掩码技术,强制建立跨视角的三维空间对应关系;在决策效率方面,阶梯式思维链解码技术使推理延迟降低40%的同时保持逻辑可解释性。
支撑模型能力的数据体系呈现金字塔结构:底层使用百万级网络视频构建视觉基础,顶层通过真机操作数据优化动作精度。团队开发的四级标注体系、双聚类采样算法和分布式训练系统,使模型在具身视频生成质量、三维空间感知等核心指标上达到行业领先水平。在真机Core15L1基准测试中,WALL-WM在泛化场景任务中取得突破性成绩,其开源代码和项目主页已同步发布。









