ITBear旗下自媒体矩阵:

中国科研团队突破AI机器人决策难题:TACO系统让机器人行动更“靠谱”

   时间:2025-12-06 06:30:21 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能与机器人技术快速发展的今天,如何让智能机器人摆脱“手忙脚乱”的困境,成为科研人员关注的焦点。中国电信人工智能研究院联合清华大学、中国科学技术大学、香港科技大学等机构的研究团队,提出了一种名为TACO的创新解决方案,为机器人赋予了“三思而后行”的决策能力。这项突破性成果近日发布在arXiv预印本平台,引发了学术界和产业界的广泛关注。

传统智能机器人虽然通过海量数据训练掌握了多种技能,但在实际执行任务时却常常表现出“选择困难”。例如,在抓取物体时,机器人可能同时掌握从顶部抓取和从侧面抓取两种方法,但无法判断哪种方式更适合当前场景。这种“多重人格”式的行为模式,导致同一任务的成功率因内部随机因素产生巨大波动,甚至出现“今天能完美完成任务,明天却错误百出”的极端情况。研究团队通过实验发现,这种“推理时不稳定性”严重制约了机器人的实际应用价值。

TACO系统的核心创新在于为机器人构建了一套“智能决策顾问”机制。该系统全称为“Test-time Anti-exploration via pseudo-COunts”,其工作原理类似于经验丰富的品酒师:当机器人面临行动选择时,系统会要求其同时生成多个可能的解决方案,然后通过“伪计数估计器”评估每个方案的历史成功率。这个评估过程借鉴了离线强化学习中的“反探索”策略,优先选择那些在训练数据中被反复验证的成功模式,而非冒险尝试未知路径。

技术实现上,研究团队开发了三项关键技术:首先是“投币网络”(Coin Flipping Network)构建的伪计数估计器,它能像图书管理员整理书籍一样,为每种行动模式建立“出现频率指纹”,从而快速判断其可靠性;其次是“高保真特征搜索”技术,通过生成带噪声的训练样本并筛选最优内部表示,确保机器人对场景的理解准确无误;最后是“键值缓存优化”机制,将多个行动方案的共同计算部分缓存共享,使决策效率提升73.2%,将原本需要数分钟的决策过程缩短至几秒钟。

实验验证环节,研究团队在四个模拟基准平台和真实机器人平台上进行了全面测试。在RoboTwin1.0基准测试中,装备TACO的机器人平均成功率提升9.1%,在“容器放置”等复杂任务中提升达15个百分点;真实世界实验中,双臂机器人RealMan75在执行接收书本、操作笔记本电脑等五项日常任务时,成功率平均提升16%,复杂任务提升幅度甚至达到25%。更值得关注的是,该系统展现出强大的通用性,无论是基于流匹配技术的π0模型,还是自回归架构的OpenVLA模型,集成TACO后均获得显著性能提升。

深入机制分析显示,TACO系统的有效性源于其独特的“经验驱动”决策模式。研究发现,由投币网络计算的“行动可靠性分数”与实际任务成功率高度相关,系统能准确识别并规避那些“看似合理实则危险”的操作。例如,在湿滑表面抓取物体时,系统会主动避免高速移动等高风险动作。组件重要性分析进一步证明,伪计数估计器、内部表示利用和高保真特征搜索三者缺一不可,共同构成了高效的决策闭环。

这项技术的突破性在于其“即插即用”特性。与传统需要重新训练整个系统的改进方法不同,TACO可像智能插件一样轻松集成到现有机器人系统中,为已投入大量训练资源的系统提供即时性能提升。这种设计理念不仅降低了技术升级成本,更为未来机器人发展指明了新方向——通过优化决策机制而非单纯增加训练数据,实现智能水平的质的飞跃。

当前研究团队正探索将TACO的“测试时优化”理念扩展至语言模型、图像生成等其他AI领域。同时,他们计划改进伪计数估计器的评估精度,并研究如何将其与在线学习结合,使机器人能在实际使用中持续优化决策能力。随着这类技术的成熟,可靠稳定的智能机器人有望更快走进日常生活,在家庭服务、工业生产、医疗护理等领域发挥更大价值。

Q&A

Q1:TACO系统如何解决机器人“选择困难”问题?A:该系统通过生成多个行动方案并评估其历史成功率,帮助机器人选择最可靠的执行路径。其核心的伪计数估计器能快速判断每种动作模式在训练数据中的出现频率,优先选择被反复验证的成功方案,从而避免随机选择导致的失败。

Q2:TACO系统的技术优势体现在哪些方面?A:主要体现为三点:一是即插即用的兼容性,可无缝集成到现有机器人系统;二是高效的决策速度,通过键值缓存优化将计算时间缩短73.2%;三是强大的通用性,适用于不同架构的机器人模型和多种任务场景。实验证明其能显著提升任务成功率并改善动作稳定性。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version