滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

上海AI实验室推EBench评测体系：机器人能力短板一测便知

时间：2026-06-30 04:05:54 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

上海人工智能实验室联合多所高校的研究团队近日发布了一项名为EBench的机器人评测体系，为当前机器人领域的能力评估提供了全新视角。该研究以预印本形式公开，编号为arXiv:2606.18239，旨在解决传统评测方法中“单一分数掩盖真实能力”的痛点。研究团队指出，现有机器人测试往往像“只考一门课就给出总成绩”，无法揭示机器人在不同场景、任务类型和操作精度下的具体表现差异。

EBench的核心创新在于构建了一套多维度的“能力体检套餐”。该体系包含26个操控任务，覆盖卧室、厨房、工业环境等9类场景，任务类型分为移动抓取、长时序复杂操作和桌面精细操作三大类。每个任务被标注了场景类型、动作技能、时间跨度、精度要求和操作模式五个维度的标签，例如“厨房场景下的高精度插入动作”或“物流仓库中的长时序搬运任务”。这种设计使得综合成功率可以拆解为具体的能力坐标图，而非模糊的总分。

数据收集是EBench的基础工程。研究团队针对不同任务类型设计了两条并行生产线：对于钉子插入、螺母拧紧等精细操作，采用操作员远程操控机器人实时复现动作的方式，保留人类微调的直觉反馈；对于移动搬运和长时序任务，则通过标注关键空间位置后由算法自动生成平滑轨迹，并批量渲染不同背景和光照条件下的变体。最终数据集包含9187万帧画面和6600个示范片段，累计时长超过91小时。

参与测评的四款模型包括π0、π0.5、XVLA和InternVLA-A1，均代表当前通用视觉-语言-动作模型的最高水平。测试结果显示，四款模型的综合成功率集中在24.4%至29.5%的狭窄区间，但能力图谱差异显著。π0.5在陌生环境中的成绩保留率达92%，显示最强泛化能力；InternVLA-A1在移动任务上表现优异，但精细操作成功率仅5.8%，暴露严重偏科；XVLA在长时序任务中成功率骤降，揭示模块化解码器的规划短板。

进一步分析揭示了关键能力瓶颈。在精度维度，所有模型在高精度任务（误差<1厘米）上的成功率不足14%，而低精度任务成功率可达44%；在动作技能维度，没有模型能掌握全部11种基础技能，π0.5虽无灾难性零分，但在“传递”动作上成功率仅12%；场景适应性方面，π0.5在卧室和浴室表现最佳，InternVLA-A1则擅长厨房和餐厅场景。这些细节在传统单一评分体系中完全被掩盖。

研究还验证了大规模预训练的价值。在EBench平台上，预训练使π0.5的成绩提升21个百分点，而在任务简单的LIBERO平台上，预训练与非预训练模型成绩无显著差异，证明EBench能更有效区分模型的真实能力。一个意外发现是摄像头角度的影响：π0在头视摄像头下精细操作成功率提升8.38%，而π0.5在俯视摄像头下移动任务表现更优，这源于两款模型动作生成头的感受野差异。

任务层面的深度分析识别出五个“硬核挑战”：超市复杂操作、瓶子操作、孔插销、咖啡豆收集和翻转杯子收集饼干。这些任务要求持续力感知反馈或亚毫米级精度，当前开环动作模型完全无法应对。研究团队建议将其作为未来模型的压力测试基准，并强调任何模型若能在此子集突破10%成功率，即代表技术前沿的实质性推进。

为确保统计严谨性，研究团队采用置换检验排除任务分组带来的干扰。例如，InternVLA-A1的移动优势（差距+30.9%）和π0.5在低精度任务上的优势（+37.1%）均通过检验，而场景类别差异大多未通过检验，提示“某模型擅长卧室场景”的结论可能源于该场景任务多为低精度类型。这种分析方法为机器人能力评估提供了更可靠的归因框架。

更多>同类资讯

滑铁卢大学与ServiceNow携手：用人类判断教AI守护隐私边界

06-30

万卡时代破局：中国算力以系统优化突围，重构下一代算力底座

06-30

欧盟新规落地：强化AI监管，严令禁止生成色情私密内容并推迟部分合规时限

06-30

具身智能照进现实：大晓机器狗在上海西岸开启全天候智能守护新篇

06-30

惠普携手OpenAI深化合作：全球业务全面融入Frontier平台促转型升级

06-30

中国移动再布局：设立Token办公室，引领通信行业迈向移动智能新时代

06-30

全球汽车零部件巨头博世换帅：哈通卸任，菲舍尔接棒谋新局

06-30

酷态科外骨骼机器人招募体验者啦！50个名额，众测后设备免费留

06-30

中国移动成立Token办公室运营商探索AI时代“Token经营”新路径

06-30

2026郑州PLC控制柜新趋势：携君电气技术深耕与多元实践探索

针对郑州地区企业普遍存在的设备改造需求，该公司能够提供从方案设计、图纸深化到设备成套、现场实施的全程服务。郑州携君电气设备有限公司凭借在自动化控制领域的专业积累和对本地行业痛点的理解，在消防控制柜、变频器配套…

06-30

MWC上海2026：拓恳科技陈明谈6G如何赋能异构机器人协同与行业落地

记者：拓恳自研 HiveMind 异构机器人群智操作系统被称为机器人“通用翻译中枢”，这套系统从底层架构上做了哪些独创设计，打破不同厂商机器人的协议、数据、控制壁垒，实现跨品牌即插即用协同？陈明：未来3…

06-30

华为引领体验经营新趋势：核心网创新助力运营商开启价值增长新篇章

武云骥告诉C114，UE Logo在1.0时代主要实现Logo动态变更，从显示运营商名称变为显示VIP或特定套餐标识;目前正在验证的2.0版本则更进一步，用户下拉Logo即可查看当前可获得速率、体验MOS值…

06-30

iPhone 18 Pro芯片架构曝光：WMCM封装革新，或9月8日携折叠屏登场

早在去年就有报告认为，苹果将在 iPhone 18 系列的 A20 芯片上首次采用台积电 2nm（N2）工艺，并引入一种全新的WMCM（晶圆级多芯片模块）封装技术。在 iPhone 17 Pro 及之前的…

06-30

图灵奖得主Joseph Sifakis出任曹操出行首席科学顾问

06-29

豆包手机每月自动发放68元会员额度全端通用

06-29

点击查看更多 +

全站最新

TMC2026聚焦电驱油低粘化，陶氏携新技术与行业共探动力系统新未来

玛莎拉蒂新动向：手动挡或重现，V8引擎重启在评估，燃油混动双布局

比亚迪元UP焕新升级：续航达505Km，能否成为年轻人出行代步新宠？

电车电池健康度自查攻略：3种零成本方法，在家1分钟搞定无需跑门店

DS推出新款DS N7 E-Tense纯电SUV 多种动力续航可选充电高效

比亚迪大汉实车亮相！大型车身搭配双动力，纯电续航有望突破千公里

热门内容

本栏最新

晟兴电话机器人助力资料补全：小步试跑精准优化，让人机协作更高效

晟兴电话机器人通知确认：把握语气要点，做好场景规划与细节优化

股东会亮出“价值底牌”，长城汽车引领行业跳出“销量陷阱”

华为杨扬：借AI焕新产品服务携手各方推动Token经营价值提升

东风奕派M8正式开启预售！大六座布局+华为科技加持，19.98万起售

东风奕派M8开启预售：大六座SUV新选择，纯电增程双版本来袭

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.