近日,人形机器人领域的一项重大进展吸引了广泛关注。在世界人形机器人运动会结束后,一系列关于机器人能力边界及未来发展方向的讨论悄然兴起,其中宇树科技的H1机器人“肇事逃逸”事件尤为引人注目。这一插曲不仅让人捧腹,也促使业界开始反思遥控人形机器人的局限性。
宇树科技负责人王兴兴在面对争议时明确表示,未来的比赛将实现机器人的全自主操作,难度并不大。而提到自主操作,就不得不提及波士顿动力,这家老牌机器人巨头在此领域一直野心勃勃。
波士顿动力认为,要实现人形机器人的真正实用化,它们必须具备一系列广泛且复杂的能力。这包括灵活操作各种物体,以及协调全身在复杂环境中移动、避障,并在遇到意外情况时保持平衡。为此,波士顿动力与丰田研究院(TRI)携手,为Atlas机器人开发了大型行为模型(LBM)。
最新成果展示视频中,Atlas机器人完全自主地执行了一系列收纳整理任务,令人叹为观止。视频中,Atlas展现了其在面对干扰时的自主决策能力,如研究人员用冰球棍捣乱时,Atlas能够自主打开箱子盖并挪动箱子位置,动作决策与人类相似,甚至透露出些许无奈。更当右手抓起的零件掉落时,它能立即用左手捡起。
Atlas还能识别不同物体,如将机器狗腿部零件折叠放置在架子上,或下蹲拉开箱子收纳面板零件。这些动作背后的AI控制模型充分利用了人形机器人的各种能力,包括行走、精确定位、下蹲、转移质心以及避免自我碰撞等。
波士顿动力的技术主管Lucas Manuelli表示,几年前这样的演示会令人惊叹不已,但如今算法、数据和硬件的汇聚正让这些令人难以置信的事情成为可能。
网友们对波士顿动力此次的演示成果评价颇高,认为这标志着人形机器人技术的一大步前进。虽然距离想象中的无所不能的通用机器人还很遥远,但这一步无疑让未来更近了一点。
据悉,波士顿动力的研究团队采用先进的扩散Transformer架构,并结合流匹配损失函数进行模型训练,以确保生成动作的流畅性和准确性。模型的构建遵循一个清晰、迭代的闭环流程,包括数据收集、处理、模型训练和评估迭代。
在一个名为“Spot车间”的演示任务中,Atlas展示了其高度协调的移动与操作能力。整个任务包含三个连续的子任务,机器人仅依靠一个通用的、由语言指令驱动的控制模型便自主完成了全部流程。这些子任务包括抓取、折叠和放置零件,以及拉开箱子收纳面板等。
除了标准任务,研究团队还探索了数十种更具挑战性的操作,如系绳结、翻转吧台凳、展开桌布,甚至搬运重达22磅的汽车轮胎。这些任务的完成证明了LBM在处理可变形物体方面的强大能力。
该模型最引人注目的亮点之一是其智能的异常处理能力。当零件不慎掉落或箱盖意外关闭时,机器人能够自主做出反应并纠正。这种能力并非来自预先编写的固定程序,而是模型从包含各种干扰和恢复场景的训练数据中自主学习到的。
这意味着为Atlas开发新的复杂行为不再需要顶尖的编程专家和漫长的开发周期。只要能向机器人演示一遍,它就能学会,这为未来大规模扩展机器人的技能库提供了极具吸引力的前景。
该模型还具备在不重新训练的情况下灵活调整运行速度的能力。实验表明,在不显著影响任务成功率的前提下,可以将机器人的执行速度提升至演示速度的1.5到2倍,证明了在某些场景下机器人的操作效率甚至可以超越熟练的人类操作员。
在整个研发过程中,团队遵循三项核心原则以确保模型的通用性和可扩展性。他们追求最广泛的任务覆盖,开发顶尖的遥操作系统以丰富训练数据的多样性;训练通用化的“通才”模型,以提高泛化能力和鲁棒性;建设支持快速迭代的基础设施,以快速进行实验和科学评估。