当人类厨师熟练地用双手处理食材时,看似简单的动作背后隐藏着复杂的神经协调机制。这种与生俱来的双臂协作能力,如今成为人工智能领域最具挑战性的课题之一。清华大学联合香港多所高校及北京人形机器人创新中心,在机器人双臂操作能力评估领域取得突破性进展,其研发的BiManiBench测试系统为评估机器人双手协作能力建立了全新标准,相关成果已发表于学术预印本平台。
研究团队通过系统分析发现,现有AI模型在处理双臂协调任务时存在显著短板。尽管多模态大模型在语言理解和图像识别方面表现优异,但当需要同时控制两个机械臂完成抓取、传递、组装等动作时,即便是最先进的模型也频繁出现失误。这种现象类似于人类中的"左撇子"与"右撇子"在协调双手时的天然差异,但机器人面临的是更复杂的空间计算和实时反馈问题。
该测试系统构建了三级评估体系:基础层考察空间推理能力,要求机器人根据物体位置选择最优手臂;中间层测试任务分解能力,需将复杂操作拆解为可执行的步骤序列;最高层则聚焦精确控制,要求机器人同时输出16维连续动作指令,控制两个7自由度机械臂完成协同操作。这种分层设计使评估体系既能检测基础能力,又能识别高级协调缺陷。
在测试过程中,研究团队对30余个主流AI模型进行了全面评估,涵盖闭源和开源系统。实验数据显示,在基础空间推理任务中,表现最佳的模型准确率可达95%,但随着任务复杂度提升,成功率显著下降。特别是在需要精确时序控制的堆叠任务中,即使最先进的模型成功率也不足67%,而开源模型普遍低于30%。这种性能断层暴露出当前AI架构在处理多肢体协调时的根本性局限。
评估机制的创新体现在评分系统的设计上。针对传统二元评分法的局限性,研究团队开发了高斯加权空间评分模型。该系统根据物体与中心线的距离动态调整评分权重,当物体位于中央区域时,系统对左右手选择的容错率提高30%。这种设计更符合人类实际操作中的模糊判断,避免了因微小位置偏差导致的误判。
为解决机器人视野遮挡问题,测试系统引入了多视角观察机制。通过同步处理第一人称视角的精细图像和第三人称视角的全局监控,模型能获得更完整的场景信息。但实验发现,这种多模态输入对计算资源要求较高,部分中小规模模型在处理多视角数据时反而出现性能下降,这为后续模型优化提供了重要参考。
在动作执行策略方面,研究团队提出了自适应截断机制。该系统根据任务类型动态设定最大连续动作数,当执行到预设阈值时强制暂停,要求机器人重新观察环境后再继续操作。这种"安全缓冲"设计使任务完成率提升22%,特别是在涉及动态物体的操作中,有效减少了因环境变化导致的失误。
深度错误分析揭示了不同模型的特性差异。以GPT-5和Gemini-2.5-Pro为例,前者在感知阶段错误率较高,常出现物体定位偏差;后者则在规划阶段问题突出,容易产生双手动作冲突。这种差异化表现提示研究者,提升双臂协调能力需要针对不同模型架构开发专属优化方案。
测试任务设计紧密结合实际应用场景,包含双手搬运、工具使用、物品排序等23类日常操作。在模拟厨房环境中,机器人需要完成"一手持碗一手倒水"的精细动作,这项任务使85%的测试模型出现液体洒落。这类贴近现实的测试场景,为评估机器人实用化程度提供了可靠依据。
技术突破体现在多个创新模块的集成。研究团队开发的视觉驱动智能体框架,能将复杂操作分解为可执行的子任务序列;操作臂分配反馈机制可在手臂选择错误时实时纠正;多视角融合算法则优化了空间感知能力。这些创新共同构成了完整的双臂协调解决方案。
当前研究仍存在局限性。所有测试均在仿真环境进行,未考虑真实世界中的机械误差、传感器噪声等因素;测试对象主要为刚性物体,对柔性材料操作的研究尚待深入;大型模型的推理速度也难以满足实时控制需求。这些挑战为后续研究指明了方向。
该成果对机器人产业发展具有重要推动作用。建立的标准化评估体系为厂商提供了客观比较基准,有助于引导技术路线向实用化方向发展。特别是测试中暴露的共性问题,为学术界和产业界协同攻关提供了明确目标。随着双臂协调能力的提升,服务机器人、工业协作机器人等领域有望迎来新的突破。











