具身智能公司自变量在近日举办的一场重要发布会上,正式推出全球首个基于世界统一模型架构的具身智能基础模型WALL-B。这一创新成果标志着机器人技术向更智能、更自主的方向迈出了关键一步。发布会现场,自变量创始人兼CEO王潜通过一系列日常家庭场景的描述,生动展现了当前机器人技术在复杂家庭环境中的局限性。他指出,无论是乱扔的拖鞋、未洗的碗筷,还是散落一地的书包和打翻的水杯,这些看似简单的家务任务,对于现有机器人而言,在没有人工遥控的情况下几乎无法独立完成。
王潜强调,机器人进入家庭是当前技术领域最具挑战性的课题之一。为了突破这一瓶颈,自变量团队在研发过程中进行了大量创新实践。此前,公司已于2024年底发布了基于VLA(Vision-Language-Action)架构的第一代具身基础模型WALL-A,并随后开源了轻量化版本WALL-OSS。通过与58同城的合作,搭载WALL-AS模型的机器人成功进入真实家庭,与保洁人员协同作业,实现了全球首次机器人在C端复杂环境中的大规模应用。
然而,真实家庭的部署也让团队发现了VLA架构的固有缺陷。联合创始人兼CTO王昊解释说,VLA架构本质上由视觉、语言和动作三个独立模块组成,数据在模块间传递时会产生信息损耗和延迟,导致模型只能模仿轨迹而无法真正理解物理世界的规律。为了解决这一问题,自变量团队决定对模型进行全面重构,推出了全新的WALL-B模型。
WALL-B的核心创新在于其世界统一模型(WUM)架构。这一架构将视觉、语言、动作和物理预测等能力整合到一个网络中,从零开始进行联合训练,彻底消除了模块间的边界和数据搬运损耗。王昊介绍,WALL-B具备三大核心技术特点:原生多模态能力使模型能够直接理解并响应多感官输入;物理世界“世界观”让其能够感知并预测重力、惯性等基本物理规律;与世界交互并自我进化的机制则使模型能够在真实环境中持续学习,无需人工干预即可不断提升性能。
为了更好地说明WALL-B的自我进化能力,王昊将其类比为人类学习使用筷子的过程。通过不断尝试和调整,模型能够像人类一样从失败中积累经验,最终形成稳定的技能。这一特性克服了传统Transformer架构在长期记忆方面的不足,使模型能够以原生多模态记忆的方式实现自我更新。
在数据训练方面,自变量团队采用了与行业不同的策略。王昊将实验室中固定、无干扰环境下采集的数据称为“糖水数据”,指出这类数据在真实环境中会迅速失效。相比之下,团队通过进入数百个志愿者家庭采集的“牛奶数据”则更加嘈杂、多变且充满随机性。自变量采用实验数据打底、真实场景提质的方法,让模型学会在不确定环境中生存,形成了独特的数据飞轮效应。
随着WALL-B的发布,自变量也明确了其商业化落地的时间表。35天后,新一代搭载WALL-B模型并经过硬件升级的机器人将正式入驻首批用户家庭。针对用户关心的隐私问题,自变量团队承诺将采取机器视觉脱敏、用户主动授权和用途限定等措施,确保数据安全不共享给第三方。王潜表示,虽然当前模型仍处于“实习生”阶段,需要远程协助且会犯错,但其能够实现24小时不间断工作,并通过新数据的积累不断变得更聪明。
为了推动这一创新技术的普及,自变量即日起开始招募首批体验家庭机器人的用户。有意者可通过官方渠道提交申请,亲身感受智能机器人带来的生活变革。











