让双足人形机器人像人类一样完成移动操作任务,是具身智能领域长期追求的目标。近日,一项突破性研究为这一愿景提供了关键技术支撑——由多所高校及科研机构组成的联合团队,成功开发出名为WholeBodyVLA的全身视觉-语言-动作控制框架,首次将VLA范式扩展至人形机器人全身控制领域。
传统机器人控制面临的核心挑战在于,移动与操作两大功能往往难以协同。当机器人需要边行走边完成抓取、搬运等动作时,不仅要保持平衡,还需精准控制肢体动作。研究团队通过创新设计,将原本分离的移动控制与操作控制整合为统一框架,使机器人能够同时处理行走姿态调整与末端执行器操作两大任务。这一突破解决了双足机器人执行复杂任务时的关键技术瓶颈。
该框架的核心创新在于数据利用方式的革新。研究团队摒弃了传统依赖昂贵机器人遥操作数据的模式,转而从人类第一视角视频中提取动作模式。通过分析人类完成类似任务时的视觉观察、语言指令与肢体动作的对应关系,系统构建出移动操作的潜在动作表示模型。这种数据获取方式不仅降低了研发成本,更使模型具备更强的场景适应能力。
为提升控制稳定性,研究团队开发了专用强化学习控制器。该控制器通过简化控制目标,将复杂的全身动作分解为可优化的子任务模块。实验数据显示,搭载该框架的机器人能在不同起始位置自主规划路径,在完成目标操作的同时保持身体平衡。即使在存在障碍物的地形中,机器人仍能维持基本移动方向,展现出较强的环境适应能力。
技术验证环节设置了多项挑战性测试。在模拟真实场景的实验中,机器人成功完成了从货架取物、跨障碍运输到指定位置放置的全流程任务。更值得关注的是,系统对未见过的新物体和场景表现出初步泛化能力,这得益于其基于人类行为模式的学习机制。研究团队指出,这种类人学习方式使机器人具备更接近人类的操作灵活性。
目前该技术已实现基础功能验证,下一步研究将聚焦于提升操作精度与响应速度。团队计划通过优化动作表示模型,使机器人能够理解更复杂的语言指令,并完成精细操作任务。这项研究为双足机器人走向实用化迈出了重要一步,其技术路径或将成为未来人形机器人开发的重要参考。











