机器人学习领域迎来一项突破性进展:加州大学伯克利分校的研究团队提出了一种名为LEGO的创新框架,通过模拟婴幼儿学习方式,让机器人仅用少量训练数据就能掌握抓取多样化物体的能力。这项发表于学术平台的研究成果,为解决机器人泛化能力差的难题提供了新思路。
传统机器人训练面临根本性困境——在特定物体上训练的模型难以处理新物体。例如,仅接触过红色立方体的机器人无法识别蓝色立方体,这种现象源于视觉系统对具体特征的过度依赖。更严峻的是,现有解决方案需要海量训练数据,某些先进模型甚至需要数百万次演示才能掌握基础技能,这与人类"举一反三"的学习能力形成鲜明对比。
研究团队从认知科学中获得灵感:婴幼儿通过掌握少数基础玩具的特性,就能将知识迁移到新物体。这种"原型学习"机制启发了"塞尚玩具"概念——将复杂物体分解为球体、立方体、圆柱体和圆环四种基本形状的随机组合。研究团队生成250个结构独特但具有代表性的玩具,这些物体既非现实物品的简单复刻,又包含可迁移的结构规律。
数据收集环节采用虚实结合策略。研究团队先在ManiSkill模拟器中收集2500个虚拟抓取演示,随后3D打印物理版本进行真实世界训练。通过远程操控Franka机械臂和Unitree人形机器人,共获取2000个高质量演示数据。这种设计确保机器人能学习到多样化的抓取方式,而非机械记忆特定动作。
核心创新在于检测池化(DetPool)机制。该技术模拟人类选择性注意力,首先用SAM 2模型定位目标物体并创建掩码,然后强制视觉编码器仅处理物体区域特征。这种设计使机器人学会关注物体本质属性,而非背景或颜色等表面特征。实验表明,DetPool相比传统注意力机制性能提升最高达48%。
完整学习系统整合多项先进技术:预训练的MVP视觉编码器提供基础特征提取能力,Transformer策略网络处理时序信息,行为克隆方法实现动作模仿。这种架构使系统能用16个历史状态预测未来动作,在参数规模(8600万)远小于对比模型(最高达70亿)的情况下,展现出更强的数据效率。
虚拟环境测试中,LEGO在65个YCB物体上达到80%成功率,显著优于π0-FAST和OpenVLA-OFT等基线模型。特别值得注意的是,当训练数据量增加时,LEGO性能持续提升,而对比模型出现性能下降,显示其优秀的泛化能力。真实机器人实验进一步验证方法有效性:Franka机械臂在64个物体上取得66.67%成功率,Unitree灵巧手在13个物体上达到50.77%成功率,均优于同类方法。
消融研究揭示关键设计选择:球体形状对性能贡献最大,由两个基础形状组成的玩具效果最佳,ViT-Base架构实现性能与效率的平衡。这些发现表明,物体识别的核心在于结构特性而非复杂外观,为机器人学习提供了新认知框架。
这项研究对机器人技术发展具有多重启示:首先,突破了"数据依赖"瓶颈,1500个演示即可实现有效训练;其次,为跨领域迁移学习提供新范式,检测池化机制可应用于其他视觉任务;最后,验证了认知科学指导人工智能设计的可行性,开辟了跨学科研究新路径。尽管当前方法主要针对刚体物体,且尚未解决多步骤操作难题,但其展现的潜力已引发行业广泛关注。











