上海人工智能实验室联合多所高校的研究团队近日发布了一项名为EBench的机器人评测体系,为当前机器人领域的能力评估提供了全新视角。该研究以预印本形式公开,编号为arXiv:2606.18239,旨在解决传统评测方法中“单一分数掩盖真实能力”的痛点。研究团队指出,现有机器人测试往往像“只考一门课就给出总成绩”,无法揭示机器人在不同场景、任务类型和操作精度下的具体表现差异。
EBench的核心创新在于构建了一套多维度的“能力体检套餐”。该体系包含26个操控任务,覆盖卧室、厨房、工业环境等9类场景,任务类型分为移动抓取、长时序复杂操作和桌面精细操作三大类。每个任务被标注了场景类型、动作技能、时间跨度、精度要求和操作模式五个维度的标签,例如“厨房场景下的高精度插入动作”或“物流仓库中的长时序搬运任务”。这种设计使得综合成功率可以拆解为具体的能力坐标图,而非模糊的总分。
数据收集是EBench的基础工程。研究团队针对不同任务类型设计了两条并行生产线:对于钉子插入、螺母拧紧等精细操作,采用操作员远程操控机器人实时复现动作的方式,保留人类微调的直觉反馈;对于移动搬运和长时序任务,则通过标注关键空间位置后由算法自动生成平滑轨迹,并批量渲染不同背景和光照条件下的变体。最终数据集包含9187万帧画面和6600个示范片段,累计时长超过91小时。
参与测评的四款模型包括π0、π0.5、XVLA和InternVLA-A1,均代表当前通用视觉-语言-动作模型的最高水平。测试结果显示,四款模型的综合成功率集中在24.4%至29.5%的狭窄区间,但能力图谱差异显著。π0.5在陌生环境中的成绩保留率达92%,显示最强泛化能力;InternVLA-A1在移动任务上表现优异,但精细操作成功率仅5.8%,暴露严重偏科;XVLA在长时序任务中成功率骤降,揭示模块化解码器的规划短板。
进一步分析揭示了关键能力瓶颈。在精度维度,所有模型在高精度任务(误差<1厘米)上的成功率不足14%,而低精度任务成功率可达44%;在动作技能维度,没有模型能掌握全部11种基础技能,π0.5虽无灾难性零分,但在“传递”动作上成功率仅12%;场景适应性方面,π0.5在卧室和浴室表现最佳,InternVLA-A1则擅长厨房和餐厅场景。这些细节在传统单一评分体系中完全被掩盖。
研究还验证了大规模预训练的价值。在EBench平台上,预训练使π0.5的成绩提升21个百分点,而在任务简单的LIBERO平台上,预训练与非预训练模型成绩无显著差异,证明EBench能更有效区分模型的真实能力。一个意外发现是摄像头角度的影响:π0在头视摄像头下精细操作成功率提升8.38%,而π0.5在俯视摄像头下移动任务表现更优,这源于两款模型动作生成头的感受野差异。
任务层面的深度分析识别出五个“硬核挑战”:超市复杂操作、瓶子操作、孔插销、咖啡豆收集和翻转杯子收集饼干。这些任务要求持续力感知反馈或亚毫米级精度,当前开环动作模型完全无法应对。研究团队建议将其作为未来模型的压力测试基准,并强调任何模型若能在此子集突破10%成功率,即代表技术前沿的实质性推进。
为确保统计严谨性,研究团队采用置换检验排除任务分组带来的干扰。例如,InternVLA-A1的移动优势(差距+30.9%)和π0.5在低精度任务上的优势(+37.1%)均通过检验,而场景类别差异大多未通过检验,提示“某模型擅长卧室场景”的结论可能源于该场景任务多为低精度类型。这种分析方法为机器人能力评估提供了更可靠的归因框架。











