深圳零一学院内,首届具身智能开发者大会的决赛现场气氛热烈。20支顶尖队伍齐聚于此,他们要在三天内完成从数据采集、模型训练到真机部署的全流程,这无疑是一场极具挑战的“真机演武”。自变量机器人联合创始人兼CTO王昊在访谈中表示,家庭场景是具身智能的终极目标,是“通往通用机器人”的关键战场。尽管多数同行优先布局工业场景,自变量却选择与58同城合作,在深圳试点让机器人与家政阿姨搭档,探索家庭服务领域的应用。
本次大会的赛制设计独具匠心。所有参赛队伍使用同一套硬件平台,在极短时间内完成从零开始的搭建。专业研究实验室通常需要6个月才能完成类似工作,而选手们仅用三天就要实现目标。比赛首日便出现明显分化:有的团队还在调试环境,有的已取得初步成绩。王昊观察到,频繁评测、注重数据和硬件观察的团队表现更为突出。他强调,具身智能的本质是交互学习,通过测试和人工观察发现问题,才能找到应对真实世界复杂性的解决方案。一位参赛选手回忆,最初完成“将环套在柱子上”任务的成功率仅20%至30%,经过多次迭代才提升至60%至70%。
比赛设置了A榜和B榜,A榜环境可控,便于快速验证模型能力;B榜则完全黑盒,考验模型在光照、背景、操作对象和位置变化下的泛化能力。王昊指出,举办此次比赛的初衷是降低开源项目对开发者的使用门槛,建立通用标准接口。在长期依赖仿真评测的具身智能行业,仿真环境虽能加速迭代,却难以还原真实世界的复杂性,sim2real的差距始终存在。王昊坦言,过度依赖仿真评测会掩盖模型能力的真实边界,而此次比赛将评测、训练和数据采集重新拉回真实世界。
自变量机器人从创立之初就选择了“大小脑统一的端到端大模型”路线,尝试将世界模型与VLA(视觉-语言-动作)模型融合在一个联合框架下。王昊解释了这一路线的底层逻辑:大语言模型仍是训练基础,但需将语言和动作置于同一空间,而非让视觉仅服务于语言。语言描述的信息宏观,而物理世界交互发生在厘米级和秒级尺度,两者存在巨大鸿沟。采用原生多模态方式,动作可在宏观和微观层面清晰表现,使视觉从静态观察转变为理解运动。这与当前许多简化设计的VLA模型形成对比,多数模型仍依赖单帧图像输入。
端到端模型面临训练复杂度和规模要求的挑战。王昊认为,若不具备这两个条件,端到端模型的效果可能不如垂类小模型或分层模型。端到端需要规模效应,数据量和模型参数量必须足够大。具身智能的评测比语言大模型更复杂,语言大模型可通过loss曲线评估,而具身智能的loss无法反映真实表现,因为真实世界是闭环系统。自变量的另一核心策略是坚持真实世界的真机数据采集。王昊表示,所有交互式学习和强化学习的关键数据都来自真机,数据采集将持续进行。2026年,数据采集方式将发生重大变化,越来越依赖人的穿戴式或Ego-Centric方式。
进入家庭场景面临两大难点:零样本泛化能力和长程操作的精细度。模型需通过推理探索成功路径,而非依赖预先训练;在长程任务中,现有基模虽能完成动作意图,但精细度不足,错误累积导致失败。王昊提出,解决长程精细度问题需激发模型推理能力,让语言、视觉、动作形成思维链,使机器人自主规划和反思;同时需在大规模真机情况下进行强化学习,提升空间精度。他预估,普通清洁、收纳等任务可在1至2年内实现完全自主,但所有家庭任务闭环需更长时间。这与自变量CEO王潜的观点呼应,后者曾表示今年内机器人将以正ROI方式实现商业化落地,家庭场景推进虽慢但更长远。
关于技术路线与商业化的关系,王昊认为,为商业牺牲技术难以取得高成就,真正的发展需技术推动商业。自变量的主线是让基模持续迭代,避免在垂直场景做过多模型系统。例如,发现机器人视觉有盲区时,不应通过小模型检测弥补,短期虽能加快落地,但长期会损害基模提升。他透露,自变量在数据、算力和基础设施上投入巨大,建立规模化效应后,资源聚集效应会愈发明显,投入10倍资源取得领先时,速度优势将以数量级超越对手,越早开始越有优势。











