作为人工智能与机器人技术交叉的前沿领域,具身智能正成为全球科技界关注的焦点。其中,具身大模型作为机器人的“中枢大脑”,正推动着机器人产业向通用化方向发展。近期,中美两国在具身智能领域接连取得突破性进展,引发业界对机器人技术“GPT-3时刻”的广泛讨论。
![]()
2025年9月,中国具身智能企业自变量机器人与美国Physical Intelligence公司相继开源了各自的具身模型WALL-OSS和π₀.₅。这一同步动作标志着具身大模型开源生态进入快速发展阶段,其发展轨迹与几年前语言大模型从开源社区兴起到ChatGPT引发全球关注的路径颇为相似。业内专家认为,机器人大模型可能在未来1-2年内迎来类似GPT-3的突破性进展。
在技术突破方面,机器人大模型正展现出强大的泛化能力。Physical Intelligence研究员柯丽一鸣指出,过去机器人完成特定任务需要针对场景定制解决方案,而大模型技术使机器人能够通过统一模型处理多种任务。以叠衣服任务为例,机器人需要适应衣物折叠方式、角度等细微差异,这种泛化能力在2025年已取得显著进展。自变量机器人CTO王昊补充道,基础模型的进步使机器人能够同时学习并执行数百种任务,为复杂长程任务的实现奠定了基础。
长程任务执行能力成为衡量机器人智能水平的重要标准。这类任务包含多个连续步骤,需要机器人进行多步推理和规划。例如,整理餐桌任务涉及餐具、液体、不规则物体等多种物品的处理,要求机器人具备空间推理、因果判断和实时决策能力。王昊透露,其团队开发的模型已在家庭场景中成功完成此类复杂任务,验证了端到端自主决策的可行性。
数据获取与质量提升仍是制约技术发展的关键因素。柯丽一鸣透露,π₀模型使用的数据量已超过谷歌研究院此前收集的总和,但数据采集成本和效率仍是挑战。王昊指出,行业数据量目前集中在几万到几十万小时级别,与训练GPT-4级别的语言模型相比仍有差距。为解决这一问题,业界正探索真实数据、合成数据和人类视频数据的结合使用,其中Genie 3等世界模型生成的交互数据被视为重要补充。
![]()
在技术路径选择上,中美企业呈现出不同特点。美国企业倾向于构建超大规模通用模型,类似自动驾驶领域的L4、L5级技术路线。而中国企业则更注重场景落地与基础模型的协同发展。王昊认为,中国完善的硬件产业链和丰富的应用场景为技术迭代提供了独特优势,双轨并行策略有助于实现商业闭环与数据反馈的良性循环。柯丽一鸣观察到,行业研究正从分散走向趋同,视觉语言动作模型(VLA)的普及标志着技术发展方向的日益明确。
开源生态的建设成为推动技术普及的重要力量。两位专家均强调,开源模型能够降低研究门槛,促进社区协作与创新。自变量机器人通过开源WALL-OSS模型,希望为行业提供具备强视觉理解、空间推理和动作生成能力的基础平台。Physical Intelligence的开源实践也验证了社区反馈对模型优化的重要价值。
对于通用家庭机器人的实现时间,业界存在不同预测。王昊认为,在半结构化厨房环境中,机器人有望在2-3年内完成简单烹饪和清洁任务,5年内可能进入家庭场景,但初期仍需人类协作。柯丽一鸣则给出5-10年的保守估计,她以扫地机器人为例,强调产品需要在用户可接受的错误范围内提供实用价值。两位专家均指出,硬件发展、算法突破和商业模式创新需同步推进,才能实现机器人技术的真正普及。
















