ITBear旗下自媒体矩阵:

NVIDIA团队新突破:AI家务助手初显身手,家庭生活智能化再进一步

   时间:2025-12-30 04:04:20 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在计算机视觉与机器人学领域,一项由多家机构联合完成的研究引发广泛关注。该研究团队在2025年BEHAVIOR挑战赛中取得亮眼成绩,其成果发表于计算机视觉与机器人学顶级会议,论文编号为arXiv:2512.10071v2。研究核心成员来自NVIDIA和斯坦福大学等,包括曲德霖、陈启智、孙尚锟、李兆硕等,他们致力于让机器人承担更多家务工作,让科幻电影中的场景逐步成为现实。

BEHAVIOR挑战赛堪称机器人界的“家务能力大考”,要求机器人在虚拟家庭环境中完成50种不同家务任务。这些任务并非简单重复,以收拾房间为例,机器人需先判断物品归属,再小心拿起易碎物品,精准放置到合适位置,整个过程涉及视觉识别、路径规划和精细操作等多个环节,对机器人而言难度极大,如同让烹饪新手直接准备满汉全席。

传统机器人系统多只能处理单一简单任务,类似只会煎蛋的厨师。而此次研究团队另辟蹊径,基于π0.5视觉 - 语言 - 动作模型构建家务机器人。该模型如同全能家庭助手,能同时理解视觉信息(观察房间布局)、语言指令(明白“把衣服放衣柜”的要求)并执行相应动作。在挑战赛中,研究团队的机器人成功完成22个任务,获得0.2514的Q分数,在所有参赛队伍中排名第二,成绩远超多数队伍,证明其方法的有效性。

π0.5模型是研究核心,它具备三种特殊能力。首先是“眼睛”,通过多个摄像头观察环境;其次是“耳朵”,理解人类语言指令;最后是“手脚”,精确控制机器人关节完成操作。与传统机器人系统各模块分离不同,π0.5模型整合所有能力于统一“大脑”,能协调处理视觉、语言和动作信息,避免出现“左手不知右手在做什么”的问题。

为让π0.5模型更强大,研究团队加入大量训练数据。其中包括1000小时人类家务演示,如同给机器人播放“家务教学视频”,还加入约400小时通过路径规划算法和离线强化学习生成的补充数据,让机器人既看真人示范又进行模拟练习。训练采用“递进训练”策略,先让机器人学习简单任务,如拿取和放置物品,再逐步增加难度,使其能处理复杂家务,就像教小孩做家务,从整理玩具开始,逐步学会整理整个房间。

π0.5模型采用“端到端”训练方式,从接收视觉和语言输入到输出动作指令,整个过程一体化训练。这如同培养多技能人才,而非让不同专家各司其职。其优势在于模型能学会在不同任务间进行知识迁移,一个任务中学到的技能可助力完成其他相关任务。

机器人学习家务活如同人从不会做饭到成为熟练厨师。研究团队设计循序渐进的训练计划,第一阶段是“预训练”。团队比较四种预训练策略,“单任务训练”效果最差,机器人仅能完成2个任务;“7任务训练”选择7个相对简单家务任务,机器人能完成6个;“10任务训练”增加搬箱子、挂画等任务,机器人成功完成9个;“50任务训练”使用挑战赛所有50个任务演示数据,机器人完成11个任务,在预训练阶段效果最好。不过,任务数量和成功率并非简单线性关系,50任务训练虽覆盖面广但最具挑战性。

预训练后,机器人需通过实践提升技能。研究团队采用“拒绝采样微调”方法,故意改变机器人起始位置,让其尝试完成任务,成功则记录操作作为训练材料,失败则丢弃。团队进行3轮拒绝采样微调,每轮平均收集8500个新操作轨迹,筛选出约2500个高质量操作序列用于训练。这种方法避免在线强化学习的复杂性,像在安全模拟环境中反复练习,既保证安全又能提升技能,使机器人验证Q分数从0.19提升到0.22。研究团队还计算“理论最佳”分数0.31,为未来改进指明方向。

在机器人学习过程中,许多技术细节影响最终效果。研究团队测试三种控制策略,“递减水平控制”让机器人成功率达25%,证明连续反馈和重新规划的重要性。测试不同动作预测长度,32步预测长度成功率达30%,实现最佳平衡。比较三种输入信息方案,点云数据虽能提升性能但成本高,RGB图像结合深度图更合适。将摄像头分辨率从224×224提升到720×480,成功率从30%跃升到60%,说明高清视觉信息对精确操作的关键作用。绝对关节角度比相对角度变化更有效,移除本体感觉状态信息会导致性能下降,技能加权策略未带来预期改进。

在50个测试任务中,机器人成功完成22个,覆盖家庭生活多个方面。厨房操作方面,做热狗任务需完成找冰箱、取热狗、加热等多步骤;切蔬菜任务能准确使用削皮器。收纳整理方面,整理卧室能识别物品并归位,收拾万圣节装饰需处理不规则物品。节庆准备方面,布置圣诞装饰需规划路径,准备咖啡站能协调多物品。户外任务中,喷洒果树需导航和使用专用工具,装车任务考验空间判断和负载处理。机器人处理平均长度低于250帧的“简单”任务表现较好,超高难度任务如重新布置厨房家具和灭火还超出其能力范围。数据显示,基础“移动到”和“拾取”技能操作时间占比高,为其他操作奠定基础,机器人能流畅切换基础和专门操作。

针对相关疑问,π0.5模型与传统机器人系统不同,它是统一模型,整合所有能力,协调性更好。拒绝采样微调通过“只保留成功案例”策略,让机器人积累经验提升技能。目前,NVIDIA机器人能完成多种家务,但在精确力量控制、复杂工具使用和长期规划任务上仍有困难。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version