香港大学联合上海创新研究院、北京航空航天大学及Kinetix AI团队,在机器人训练领域取得重要突破。他们开发的"EgoHumanoid"系统首次实现通过人类第一视角视频训练人形机器人完成复杂动作,这项成果已发表于学术平台arXiv,编号为2602.10106v1。
传统机器人训练依赖实验室环境,研究人员需使用精密遥控设备逐个关节指导机器人动作。这种方法不仅成本高昂,且训练出的机器人仅能在特定场景运行。当面对家庭、商场等真实环境时,机器人常因无法适应复杂场景而表现笨拙。研究团队指出,这种训练方式如同让学生只在教室学习,缺乏应对现实世界的能力。
人类每天在多样环境中完成行走、抓取、搬运等动作,积累了丰富的运动经验。但将人类经验转化为机器人指令面临巨大挑战:实验用Unitree G1机器人身高1.3米,与人类平均身高存在差异;人类灵活的手指与机器人三指机械手结构迥异;自然摆动的行走方式与机器人机械平衡机制截然不同。这些差异犹如将成人服装强行套在儿童身上,尺寸比例完全不匹配。
研究团队创造性地构建了"翻译系统",通过视角对齐和动作对齐两大技术突破实现人机动作转换。视角对齐技术利用MoGe算法估算视频中每个像素点的距离信息,将人类俯视视角压缩为机器人平视视角。当转换出现空白区域时,AI图像生成技术会自动补全画面,确保机器人获得完整视觉信息。动作对齐则建立了一套通用动作语言,用相对位置变化描述上半身操作,将复杂步态简化为前进、后退等基础指令。
为收集训练数据,团队开发了便携式VR设备系统。志愿者佩戴装有摄像头的VR头盔和全身追踪器,在真实环境中自然执行任务时,系统会自动记录第一视角视频和动作数据。这套设备重量轻便,可随身携带至家庭、公园、商场等场景使用。数据显示,收集39.7秒人类示范视频的效率,比收集62.1秒机器人遥控数据高出近一倍。
研究团队设计了四项综合测试验证系统效能,每个任务都要求机器人同时具备行走和操作能力。"枕头放置"任务考验机器人携带物品时的平衡控制;"垃圾投放"需要精确的空间定位和投掷技巧;"玩具转移"涉及连续动作序列执行;"购物车收纳"则要求机器人协调推车、抓取、放置等多任务操作。这些任务模拟了人类日常生活中的复杂场景,对机器人综合能力提出严峻挑战。
实验结果超出预期。在熟悉实验室环境中,结合人类数据的系统成功率从59%提升至78%;在全新陌生环境中,成功率更是从31%跃升至82%。这种显著提升证明,人类日常经验为机器人提供了应对意外情况的"生活智慧"。进一步分析发现,导航类技能(如行走、转弯)可完全通过人类数据学习,而精细操作技能(如精确抓取)的迁移效果相对较弱,这主要受限于机器人机械手的结构限制。
数据多样性对训练效果的影响超出预期。团队对比实验显示,在三个不同场景收集的等量数据,比单一场景收集的相同数据量,能使机器人泛化能力提升更显著。这表明就像语言学习需要不同语境一样,机器人也需要通过多样场景积累经验。
当前系统仍存在局限性。手部动作精确转换仍是难题,人类手指的灵活旋转动作常被机器人误解。数据质量要求严格,示范者需保持标准动作,避免手部长时间遮挡或身体过度摇摆。这些挑战为后续研究指明了方向。
这项技术为机器人训练开辟了新路径。传统"手把手"教学方式如同师父带徒弟,而新系统使机器人具备观察学习能力,更接近人类婴儿通过观察学习技能的自然方式。随着VR设备普及,普通人的日常活动都可能成为机器人学习的数据源,家庭服务机器人或可通过观看主人视频快速适应新环境,工业机器人也能通过观察工人操作学习装配流程。
在问答环节,研究人员解释了系统工作原理:通过视角转换和动作简化建立人机沟通桥梁,使机器人能"理解"人类示范。相比传统实验室训练,VR系统具有便携高效优势,能在真实环境中收集多样化数据。陌生环境测试中51%的成功率提升,充分证明了人类经验对机器人适应能力的重要价值。











