ITBear旗下自媒体矩阵:

NVIDIA与高校联合研发SpaceTools:AI机器人解锁复杂空间推理新技能

   时间:2025-12-06 06:31:24 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,如何让机器像人类一样灵活运用多种工具解决复杂问题,一直是科研人员探索的重要方向。近期,一项由科研团队联合开展的研究取得突破性进展,他们开发的系统让AI在视觉分析和机器人操作领域展现出强大能力,为这一难题提供了创新解决方案。

传统AI视觉模型在处理简单识别任务时表现尚可,例如判断物体颜色或形状,但面对需要综合多种能力的复杂空间推理时,往往力不从心。例如,当被问及“哪个踏板最小且应如何启动”时,这类模型难以同时完成识别、比较大小和定位操作点等任务。研究团队开发的SpaceTools系统则通过整合多种视觉工具,使AI能够像专业厨师协调使用厨具一样,灵活应对各类复杂场景。

该系统的核心创新在于“双重交互强化学习”(DIRL)训练方法。这一方法分为两个阶段:第一阶段为“教学阶段”,AI首先学习使用基础的指向工具,掌握精准识别和定位物体的能力,同时通过高级AI模型示范完整工具使用流程;第二阶段为“探索阶段”,AI在已掌握基础技能的基础上,尝试协调使用全套工具,并通过不断试错和反馈优化策略。这种分阶段训练方式,使AI能够逐步构建起复杂工具的协调能力。

为支撑这一训练过程,研究团队还开发了名为Toolshed的技术平台。该平台采用“去耦合”设计,允许不同视觉工具在独立环境中运行,避免资源竞争和相互干扰。其异步处理机制更使AI能够同时调用多个工具,大幅提升效率。例如,在需要同时使用深度估计、物体分割和3D边界框工具时,系统可确保各工具快速响应,避免因计算延迟导致任务失败。

在奖励机制设计上,研究团队摒弃了传统“对错二分法”,转而采用更精细的评分标准。例如,在指向任务中,AI的得分会根据其指向位置与正确位置的接近程度动态调整,离目标越近得分越高。这种设计使AI能够在训练过程中获得更具体的反馈,从而更快优化策略。对于姿态估计和抓握预测等高级任务,系统则通过比较预测结果与真实数据的差异来评分,确保评估的准确性。

实际测试中,SpaceTools在多个标准数据集上表现优异,涵盖从基础空间关系理解到复杂机器人操作的任务类型。在真实机器人实验中,该系统控制7自由度机械臂执行拾取和放置任务时,成功率达到86%。特别是在需要理解空间关系的任务中,如“拾取更远的椰子水”,其表现显著优于GPT-5和Claude等商业AI模型。这一结果证明,专门训练对提升AI的多工具协调能力至关重要。

研究团队还通过消融实验验证了系统各组件的必要性。实验表明,若移除高级AI模型的示范模块,AI在复杂任务中的表现会明显下降;若省略探索阶段的训练,工具协调能力将受到限制。这些发现进一步确认了DIRL方法各环节的协同作用。

在系统工程层面,Toolshed平台采用模块化设计,支持动态扩展和负载均衡。其支持的视觉工具包括深度估计、物体分割和指向检测等,机器人工具则涵盖图像捕获、抓握执行和物体放置等功能。这种设计使系统可根据任务需求灵活配置工具组合,同时保持高效运行。

训练数据的质量和平衡性也是研究团队关注的重点。原始数据集中存在答案分布不均的问题,例如超过75%的答案为“否”,这可能导致AI偏向预测单一结果。通过重新平衡数据集,研究团队确保了AI能够做出更均衡的判断,避免因数据偏差影响性能。

在模型架构选择上,研究团队采用具有25亿参数的Qwen2.5-VL-3B-Instruct作为基础模型,仅对语言模型部分进行微调,而保持视觉编码器冻结。这种设计既保证了训练效率,又维持了模型在视觉理解方面的原有能力。训练过程中使用的GRPO算法,通过比较同一批次中不同回答的相对表现来更新模型,进一步提升了训练稳定性。

机器人实验中,研究团队使用Kinova Jaco机械臂和ZED2 RGB-D摄像头,将机器人系统抽象为工具,提供图像捕获、深度获取等API接口。这种设计使AI能够统一控制感知和行动模块,实现从环境观察到动作执行的完整流程。实验覆盖简单拾取、关系拾取和拾取放置三类任务,结果显示SpaceTools在所有任务类型上均表现良好,尤其在关系拾取任务中优势显著。

与商业AI模型的对比实验进一步证明了SpaceTools的先进性。当接入相同工具系统时,GPT-5和Claude在需要精确工具协调的任务中表现逊色,而专门训练的SpaceTools则展现出更强的适应能力。这一结果凸显了针对性训练在复杂任务处理中的重要性。

研究还发现,工具增强的训练不仅提升了模型在训练任务上的表现,还显著改善了其泛化能力。例如,仅在RoboSpatial数据集上训练的模型,在完全不同的RefSpatial数据集上仍能达到34.3%的准确率,而其他方法几乎无法完成任务。这种跨域迁移能力表明,通过工具使用学到的空间推理技能具有更广泛的应用潜力。

从技术趋势来看,SpaceTools代表了AI从单一模型向模块化系统架构的转变。这种设计允许系统的不同部分独立优化,同时保持整体协调性,类似于微服务架构在软件开发中的应用。其结构化的推理流程和工具调用记录,也为AI决策的可解释性提供了新思路。

尽管当前方法仍存在计算资源需求较高、对长期任务规划支持有限等挑战,但其成功为AI工具使用能力的发展树立了新标杆。随着Toolshed平台的开源发布,更多研究者和开发者将能够基于这一框架探索更广泛的应用场景,推动AI技术向更智能、更实用的方向迈进。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version