ITBear旗下自媒体矩阵:

上海交大发布GM-100评测体系,具身智能有了“统一考题”新探索

   时间:2026-01-27 17:10:56 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在具身智能技术快速发展的当下,行业正面临一个关键挑战:如何建立一套科学、统一且可验证的评测体系。当前,各家企业与研究机构在展示技术成果时,往往采用不同的任务场景和评测标准,导致不同系统之间的能力难以横向比较,技术落地效果也缺乏客观参照。这种“各说各话”的现状,正阻碍着具身智能从实验室走向真实应用场景的进程。

具身智能的特殊性在于,其技术表现高度依赖具体环境。同一系统在不同光照条件、物体材质或任务顺序下,性能可能产生显著差异。然而,现有评测体系大多聚焦于高频、简单的标准化任务,如抓取成功率或路径规划效率。这类基准测试虽能推动行业早期发展,但随着模型能力提升,其区分度逐渐下降,难以反映系统在复杂环境中的真实表现。当模型能够稳定完成基础任务后,继续在同类场景中“刷分”,更多体现的是工程优化能力,而非技术本质突破。

针对这一痛点,上海交通大学等机构联合推出的GM-100评测体系,试图通过任务多样性和评估系统性构建新的评测范式。该体系包含100个任务,每个任务配备约100条训练轨迹和30条测试轨迹,总计1.3万条操作轨迹。其核心设计理念是突破传统评测的“舒适区”,重点覆盖长尾任务和精细操作场景。例如,穿糖葫芦、开抽屉、整理小物体等任务,既包含人类认为复杂的操作,也包含看似简单但实际对机器人极具挑战的场景。这种设计迫使模型必须具备更通用的环境适应能力,而非仅针对特定任务优化。

GM-100的任务生成过程融合了人类交互原语分析与大语言模型辅助设计。研究团队首先系统梳理了人类与物体交互的基础动作模式,再通过大语言模型生成候选任务,最终经专家筛选形成任务库。这种“人类经验+AI生成+专家验证”的流程,确保了任务既贴近真实需求,又具备科学严谨性。例如,某些任务中,机器人需在物体被部分遮挡或位置偏移的情况下完成操作,这类场景在传统评测中极少出现,却能更真实地反映系统在动态环境中的鲁棒性。

在评估指标上,GM-100突破了单一任务成功率的局限,引入部分成功率(PSR)和动作预测误差等多维度指标。PSR通过量化多步骤任务的细节完成情况,揭示模型在复杂任务中的局部能力短板;动作预测误差则衡量模型在新轨迹上的模仿精度,防止模型通过“走捷径”完成部分动作。这种设计有效遏制了“刷榜”行为,鼓励研究者关注模型的真实泛化能力。例如,在测试主流具身学习模型时,不同模型在GM-100上的表现差异显著,证明其任务设计能够拉开技术差距,为模型能力提供可靠参考。

为推动评测体系的开放与可信,GM-100团队采用了“社区共建”模式。他们开源了全部任务的详细说明、物料清单(甚至包含淘宝采购链接)以及真实机器人操作数据,大幅降低了复现门槛。同时,平台允许研究者自主上传测试结果与证据视频,并通过模型权重审核机制确保数据真实性。未来,平台还计划增加用户点评、收藏等功能,形成“悠悠众口”的监督机制。这种去权威化的设计,既避免了单一机构主导带来的偏见,也通过群众监督让“作弊”模型无处遁形。

GM-100的探索与LMArena等国际评测平台形成呼应。后者通过匿名双盲对比和用户投票构建去中心化评估机制,而GM-100则通过跨平台数据、详尽交互说明和多维度指标实现评估透明化。两者的共同点在于,均试图打破传统评测对“权威”的依赖,转而通过机制设计确保结果可信。这种范式转变,或许预示着具身智能评测正从“实验室标准”向“社区共识”演进。

目前,GM-100的任务库已覆盖从简单到复杂、从常见到罕见的全场景,但研究团队并未止步于此。他们计划将任务数量扩展至300甚至1000项,并推进跨机器人平台评测,以进一步提升评测的覆盖面。同时,未来评测维度可能纳入进度评分、安全性、社会价值等指标,推动具身智能向更工程化、更贴近真实需求的方向发展。尽管数据集构建需要大量“拧螺丝”般的基础工作,但研究者相信,这种“脏活累活”终将为行业技术演进提供关键坐标。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version