随着具身智能从概念验证迈向规模化应用,产业界对机器人能力的期待正从“表演式成功”转向“真实场景泛化”。在工业分拣、养老护理、仓储物流等非标准化场景中,机器人需具备自主感知环境、决策行动并稳定执行复杂任务的能力,这对具身智能模型的“大脑”功能提出更高要求。如何建立科学评价体系,成为推动行业技术突破的关键议题。
全球首个大规模真机基准测试平台RoboChallenge近日发布最新测评结果,为具身智能模型的能力评估提供新标准。与大语言模型“闭卷答题”式的静态文本评估不同,具身模型测评需构建“感知-决策-执行”的物理闭环,通过公开任务场景、验证视频动作序列和任务完成率,形成类似“开卷考试+实操考核”的复合评价体系。这种差异使得开源模型成为检验技术真实性的核心载体——只有公开代码、数据和训练架构的模型,才能避免通过微调其他模型“刷榜”的争议,确保评估结果可复现、可追溯。
在本次测评中,自变量机器人研发的开源端到端模型wall-oss以46.43分位居总分第二,仅次于Physical Intelligence公司的pi0.5模型。值得注意的是,wall-oss在叠洗碗巾、挂口杯、浇盆栽等12项单任务中斩获6个第一,成为排名前三中唯一的国内开源模型。其技术团队背景亦引发关注:创始人王潜作为全球最早提出神经网络Attention机制的研究者之一,CTO王昊则主导开发过“太乙”“燃灯”“姜子牙”等多模态大模型,为模型架构设计提供深厚积累。
开源策略的深层价值在测评后进一步凸显。自变量宣布将于下周公开wall-oss的复现结果示例、微调代码及详细部署文档,开发者可基于这些资源在自有机器人上完成闭环流程复现。这种“模型+工具链+数据接口”的全链条开放模式,不仅降低了中小团队的技术准入门槛,更通过社区协作加速模型迭代——高校和初创企业可基于开源基础模型开发垂直场景应用,而开发者反馈又能反向优化底层架构,形成“技术共享-场景落地-能力提升”的良性循环。
“开源不是简单的代码公开,而是构建产业生态的基石。”自变量CTO王昊指出,基础模型研发需要巨额投入,但封闭开发难以应对真实世界的复杂性。通过开源,团队能站在全球开发者集体智慧的基础上持续进化,同时避免重复造轮子。数据显示,wall-oss开源后已吸引超过200家机构参与测试,社区贡献的300余条优化建议直接推动了模型在长序列任务和动态干扰场景中的性能提升。
当前,具身智能产业正面临从“单点突破”到“系统能力”的转型挑战。RoboChallenge的测评结果揭示,领先模型已具备初步泛化能力,但真实场景中的光照变化、物体形变、人机协作等变量仍需突破。开源模型的透明迭代机制,或将为解决这些难题提供新路径——当全球开发者共同参与压力测试、数据增强和算法优化,具身智能从实验室走向千行百业的进程有望大幅提速。











