英伟达联合卡内基梅隆大学(CMU)与加州大学伯克利分校,共同推出具身智能研究框架ENPIRE,首次实现让AI自主操控实体机器人完成全流程研究。该系统通过8个智能体分别控制双臂机器人,在无需人工干预的情况下完成文献阅读、算法优化、实验部署、结果分析等任务,并在插针任务中仅用3小时将成功率从0提升至99%。
研究团队突破性地将真实物理世界转化为可迭代优化的实验环境。传统机器人研究依赖人工复位场景、记录数据,而ENPIRE通过四大核心模块构建自动化研究闭环:环境模块(EN)负责搭建实验场景并实现自动复位与评分;策略改进模块(PI)支持行为克隆、强化学习等多种算法混合优化;部署测试模块(R)将新策略直接应用于真实机器人并采集多模态数据;进化模块(E)通过代码共享机制实现多智能体协同进化。这套系统使机器人实验首次具备类似软件开发的持续迭代能力。
在GPU插拔任务中,机器人需完成从主板拔出GPU、移动至指定位置并精准插入的复杂操作。系统通过顶部和侧面双摄像头构建视觉检测方案,仅用150毫秒即可判断操作是否成功,检测精度接近人类反应速度。更令人瞩目的是,当实验失败导致场景混乱时,环境模块能自动恢复初始状态,彻底解决物理世界缺乏"env.reset()"指令的难题。
智能体的研究过程展现出惊人的自主性。在扎带穿扎任务中,初始的端到端训练效果不佳,智能体自主切换为"视觉定位+工具调用"的混合架构,先利用视觉语言动作模型(VLA)进行粗定位,再调用专用API完成精细操作。这种根据任务特性动态调整研究路径的能力,与人类研究员的决策模式高度相似。研究记录显示,智能体在插针任务中通过逐步添加在线强化学习数据、正则化项和批处理优化,将成功率从零稳步提升至99%,整个过程未接收任何人工指令。
多智能体协作机制显著提升研究效率。8个智能体同时探索不同解决方案,通过代码共享机制互相借鉴有效策略。实验数据显示,这种并行研究模式使插针任务达到目标成功率的时间从单机器人模式的1.5小时缩短至40分钟。但物理世界的复杂性导致系统扩展成本高昂,随着智能体数量增加,代码阅读、经验同步等协作行为的token消耗呈指数级增长,研究团队为此专门设计了机器人利用率和token利用率两项评估指标。
该框架首次实现研究经验的跨任务迁移。智能体在插针任务中积累的环境复位技巧和视觉检测方案,被整理成文字总结后直接应用于GPU插拔任务,显著提升后续研究效率。这种不依赖模型权重或训练数据的经验传承方式,与人类实验室的"传帮带"模式异曲同工。研究团队认为,这标志着具身智能研究开始具备可扩展性,未来可能通过扩展机器人舰队规模实现研究能力的指数级增长。
ENPIRE的推出标志着机器人研究进入全新阶段。该项目负责人指出,当给智能体配备机器人舰队、GPU集群和充足token预算后,系统能自主完成从场景感知到策略优化的完整研究链条。这种将数字世界自主研究能力迁移至物理世界的突破,为解决复杂现实问题提供了全新范式。目前研究团队已公开全部代码,但搭建同等规模的研究平台仍需突破硬件成本和计算资源的双重限制。











