让机器人像人类一样“三思而后行”,上海科研团队在具身智能领域取得突破性进展。通过构建开源具身世界模型,研究人员试图赋予机器人“行动前预演”的能力,使其在执行任务前能够预判不同动作可能产生的后果,从而选择最优方案。
传统机器人往往只能机械地执行预设指令,面对复杂环境时容易因缺乏预判能力而出现失误。例如在倒果汁场景中,机器人可能因角度偏差导致液体洒出,或因用力过猛碰翻杯子。针对这一难题,研究团队开发的模型通过多源异构数据预训练,构建了包含动作预测、未来状态模拟和动作优化的完整系统,使机器人能够像人类一样在脑海中推演不同动作轨迹可能产生的结果。
该模型的核心创新在于其“预演-评分-执行”机制。以整理书包任务为例,机器人会先生成多种可能的动作组合,如不同角度的抓取方式或物品摆放顺序,随后通过仿真器预测每种方案对应的未来画面。系统会根据物品是否掉落、空间利用率等指标为每个方案打分,最终选择得分最高的动作执行。这种机制使机器人不再局限于“看见-反应”的被动模式,而是具备“思考-行动”的主动决策能力。
训练数据的多样性是该模型实现泛化能力的关键。研究团队整合了真机操作数据、人类第一视角视频、通用操作接口数据等约3万小时的异构数据,通过统一动作空间预训练,使模型能够从不同“身体”、环境和任务中提炼通用物理规律。例如,模型通过分析大量物体交互视频,学会了“被推动的物体会移动”“被碰撞的容器可能倾倒”等基础物理常识,这些经验成为机器人适应新场景的重要基础。
实验数据显示,该模型在环境变化测试中表现出较强适应性。当灯光、背景或物体纹理发生变化时,机器人仍能保持较高任务成功率;面对物品类型或位置调整等干扰,系统也能通过快速推演找到可行方案。研究团队特别指出,这种能力对家庭、商超等动态场景尤为重要,因为真实环境中几乎每天都会出现各类意外变化。
尽管取得重要进展,研究人员坦言目前距离通用服务机器人仍有差距。当前模型作为预训练基础框架,虽具备跨任务泛化能力,但尚未针对所有真实场景进行专项优化。例如在处理低频但关键的长尾问题时,系统仍需结合部署后的持续学习机制来提升可靠性。为此,研究团队将该模型与此前开发的“边部署边学习”系统形成互补——前者通过仿真预演降低试错成本,后者通过真实交互积累经验,二者共同推动机器人向更稳定可靠的方向发展。











