ITBear旗下自媒体矩阵:

跨形态教学新突破:轮式机器人“经验”赋能双足机器人高效学习

   时间:2025-09-24 07:09:48 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

近年来,人形机器人技术迎来快速发展期,基于视觉-语言-动作(VLA)模型的系统已能胜任多种家务任务,展现出较强的适应性和可靠性。然而,双足人形机器人的发展始终面临一个关键障碍:缺乏覆盖全身动作的高质量演示数据。传统远程操作数据收集方式不仅成本高昂,且效率低下,难以满足家庭环境中多样化任务的需求。

针对这一难题,浙江大学与西湖大学等机构的研究团队提出了一项名为TrajBooster的创新方案。该框架通过利用轮式机器人丰富的操作数据,结合轨迹重定向技术,大幅提升了双足人形机器人的动作学习效率。实验表明,仅需10分钟目标机器人的真实数据,即可实现复杂的全身操控任务,显著增强了机器人的动作空间理解能力和零样本任务迁移能力。

TrajBooster的核心思路在于将6D末端执行器轨迹(3D位置+3D旋转)作为与机器人形态无关的通用接口。研究团队发现,尽管机器人形态各异,但完成任务时末端执行器的运动轨迹具有高度一致性。例如,无论是轮式还是双足机器人,拿起杯子都需要让“手”沿相似路径接近并抓取。基于这一洞察,TrajBooster构建了一个“真实→模拟→真实”的闭环流程:首先从轮式机器人操作数据中提取语言指令、视觉观察和轨迹;随后在仿真环境中将这些轨迹转化为双足机器人的全身动作;最后用生成的数据预训练VLA模型,并通过少量真实数据微调即可部署。

为实现轨迹的精准重定向,研究团队设计了一个分层控制模型。上层采用逆运动学模块,直接根据目标手腕位姿计算臂部关节角度;下层则通过分层强化学习策略控制腿部和平衡。具体而言,管理者策略负责判断身体移动方式,如调整躯干高度或基座速度;执行者策略则将这些高阶命令转化为12条腿部关节的具体动作。团队还开发了“协调在线DAgger”算法,通过梯度下降优化策略,实现了比传统方法更高效的轨迹跟踪。

在模型训练阶段,TrajBooster采用了两阶段策略。后预训练阶段将重定向数据与源数据中的语言和视觉观察组合,构成新的三元组,对预训练VLA模型进行继续预训练,使其初步理解目标机器人的动作空间。后训练阶段则仅需10分钟真实数据对模型进行微调,弥合模拟与现实之间的差距。这种设计将耗时的动作学习阶段转移至仿真环境,大幅降低了数据收集成本。

实验在宇树Unitree G1双足机器人上验证了TrajBooster的卓越性能。在“抓取米老鼠”“整理玩具”等任务中,经过后预训练的模型性能显著优于直接使用大量真实数据训练的模型。当目标物体位置发生变化时,经过后预训练的模型成功率高达80%,而未经过后预训练的模型则完全无法适应。轨迹分析显示,未使用后预训练的模型只能死记硬背训练轨迹,而经过后预训练的模型能灵活生成新轨迹以适应新位置。

更令人惊喜的是,经过后预训练的模型实现了零样本技能迁移。在真实数据中从未出现的“传递水杯”任务中,该模型无需任何额外训练即可完成,表明从轮式数据中继承的“递东西”技能已成功通过轨迹迁移至双足机器人。这一成果证明了TrajBooster框架的有效性,为解决机器人数据稀缺问题提供了全新思路。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version