李飞飞团队联合英伟达等机构,正式推出了一项针对具身智能领域的全新挑战赛——BEHAVIOR家务挑战赛。这一赛事旨在通过标准化任务和大规模数据集,推动机器人完成家务任务的能力,其设计理念与影响力被认为可能媲美当年的ImageNet。
参赛者需使用星海图R1 Pro机器人作为硬件平台,在虚拟家庭环境BEHAVIOR-1K中完成50项涵盖烹饪、清洁、物品整理等场景的任务。为降低参与门槛,主办方提供了约1200小时的专家操作轨迹数据,支持模仿学习等算法开发。赛事设置两条赛道:标准赛道要求机器人仅依赖视觉感知决策,特权赛道则允许获取环境坐标等额外信息。
评分体系以任务完成度为核心,既考核"将餐具放入洗碗机"等完整操作的成功率,也评估"拿起盘子但未放置"等中间状态的得分。次要指标包括模拟耗时、移动距离、机械臂动作次数等,最终排名依据平均任务完成率确定。赛事设置1000美元奖金及RTX 5080显卡等奖励,作品提交截止日期为2025年11月15日。
在近期举办的专题研讨中,李飞飞与英伟达团队负责人Jim Fan等专家,深入探讨了赛事设计的核心逻辑。她指出,当前机器人学习领域存在三大痛点:缺乏统一评价标准、任务设计碎片化、训练数据规模不足,这些问题与2009年ImageNet诞生前的计算机视觉领域极为相似。当年ImageNet通过构建百万级图像数据库,成功推动了深度学习革命,此次BEHAVIOR挑战赛正是希望复制这一成功模式。
赛事设计凸显三大特色:其一,坚持"人类中心"原则,在任务定义、数据筛选和伦理规范中始终确保技术发展符合人类需求;其二,首次明确家庭机器人能力标准,要求同时具备跨房间导航、双手协作、长期规划等复合能力;其三,构建超大规模训练场景,覆盖1000种家庭活动,单个任务平均需要6.6分钟连续操作。这种系统化设计使BEHAVIOR具备成为具身智能领域基准测试的潜力。
随着赛事启动,家务场景正成为检验具身智能技术的重要试金石。业内人士观察到,近期多个具身智能项目均将家务作为核心测试场景,这种趋势与大语言模型通过解题测试评估能力形成有趣呼应。当语言模型的检测标准是完成数学题时,物理世界机器人的检测标准正转向完成家务任务。