机器人能否像人类一样,在动手前先在脑海中预演动作的后果?复旦大学联合上海交通大学、麦吉尔大学等机构的研究团队给出了肯定答案。他们提出的A2World框架,通过构建动作条件化的世界模型,让机器人真正理解物理规律与动作之间的因果关系。这项研究已发布在预印本平台arXiv,编号为arXiv:2606.29501,为机器人通用智能的发展开辟了新路径。
传统机器人控制方法主要分为两类:一类是直接从视觉输入生成动作指令,如同厨师看到食材即刻操作;另一类是先模拟世界变化再决策,类似棋手推演棋局。前者响应快但缺乏物理理解,换个场景就失效;后者虽更通用,却常因数据单一或训练目标狭窄而难以迁移。研究团队指出,现有方法要么依赖通用视频模型而忽视真实动作数据,要么局限于特定机器人或任务,无法形成可复用的物理知识库。
A2World的核心突破在于将动作视为理解物理世界的天然监督信号。无论机器人形态如何、任务场景怎样变化,“向前推物体”背后的物理规律始终一致。通过在210万条真实机器人操作轨迹上训练,模型逐渐内化了这些规律,形成了可迁移的“动作-世界”知识。这些数据覆盖20多种机器人形态,包括单臂、双臂、轮式和双足平台,任务从简单抓取到精密插接、柔性物体操作等应有尽有,摄像头视角也包含固定和第一人称等多种类型。
为统一处理多样数据,研究团队将所有机器人动作编码为“双臂格式”,单臂机器人缺失的手臂用零补位。训练时采用“数据集一致性批次”策略,确保每个批次的数据来自同一数据集,避免视角混乱。这种设计让模型能在统一语言体系下理解所有机器人行为,为后续训练奠定了基础。
A2World的基础架构基于扩散变换器(DiT),并做了三项关键改进。一是动作条件化注入,将动作序列编码为特征向量并叠加到时间步嵌入上,使模型每层都能感知当前动作;二是多视角联合生成,将不同摄像头画面在时间维度拼接,通过跨视角注意力模块确保物理一致性;三是摒弃伪动作标签,直接使用真实标注数据训练,避免了误差叠加。这些设计让模型能准确预测动作引发的视觉变化。
预训练后的A2World可衍生出两个下游版本:A2World-sim和A2World-policy。A2World-sim作为虚拟试验台,通过滚动预测实现长时间模拟。它采用“基于姿态引导的历史采样”方法,根据机器人运动路径弧长均匀选取历史帧,既保留关键信息又控制计算量。训练时引入的“自我强迫”技术,让模型能处理自身生成的略有瑕疵的帧,保持长时间预测的稳定性。
A2World-policy则直接用于控制机器人完成任务。其架构为“Y字形”联合预测结构,视觉分支和动作分支共享自注意力机制,彼此交流信息。训练时,两个分支的噪声扰动独立施加但按固定比例缩放,确保学习侧重不同又保持同步。推理时,系统根据初始图像和语言指令,同时生成未来视频和动作序列,用户可调整引导强度平衡视觉逼真度和动作准确性。
实验验证了A2World的强大能力。在基础生成能力测试中,模型能根据不同动作序列生成合理场景,包括从未见过的脚本化指令和完全新数据集上的任务。A2World-sim在滚动预测质量评测中全面超越基线方法,尤其在动作保真度指标上表现突出。真实机器人测试显示,其虚拟成功率与真实成功率高度相关,可作为可靠的策略筛选工具。A2World-policy在LIBERO基准测试中平均成功率达98.6%,在分布外迁移任务和真实机器人操作任务中也表现优异,尤其在复杂长任务上优势明显。
消融实验进一步证明了设计选择的有效性。姿态引导历史采样在多项指标上优于简单堆砌最近帧;动作条件预训练在迁移任务中表现优于文本条件预训练;视频生成与动作生成的联合训练显著提升了策略性能。这些结果支持了研究团队的核心主张:用真实动作监督世界理解,比文字描述或间接猜测更有效。
尽管A2World在桌面操作任务上取得了显著进展,但其预训练数据仍局限于此类场景。对于更复杂的全身运动、室外环境或人机协作任务,迁移效果有待验证。视频生成的计算开销也限制了实时闭环控制的应用。研究团队已在GitHub开放项目主页(LogosRoboticsGroup/A2World),并提供了完整技术细节,供感兴趣者进一步探索。











