149元,3小时。
近期,自变量与58同城合作推出的智能保洁服务引发了广泛讨论。用户下单后,家政阿姨、机器人和工程师一起上门。质疑和好奇随之而来:机器人到底做了多少活?为什么还需要阿姨和工程师?它什么时候才能真正替代人工?

149元,对应的是一次完整的人工上门保洁服务。对许多城市家庭来说,这个价格足以匹配家政阿姨投入的时间和劳动。而在这个服务流程中,机器人承担部分可执行任务,工程师负责现场支持和安全保障。
在这其中,家庭隐私是首要考量。需要注意的是,自变量和58同城从这项服务设计之初,就保留了用户拒绝的权利:用户不同意,机器人不开机。
它给出的方案是视觉脱敏、透明授权和用途限定:原始数据完全脱敏,机器人经用户同意后才启动,数据不共享给第三方。
只有在用户允许之后,机器人才能真正进入家庭。自变量要做的,是让机器人在这样的环境里理解任务、完成动作,并从一次次成功和失败中继续迭代。
这也指向中国机器人产业的一种新路径:具身智能正在从资本、发布会和演示视频驱动的热闹,走向真实世界里的压力测试。
关注具身智能的人可能会发现:今年国内企业都开始做数据采集,发令枪响就是冲刺。自变量机器人创始人兼CEO王潜做过判断:“看不到具身智能的scaling low,是因为数据太糟糕了,全是噪声。”
谁能率先积累足够多高质量的具身数据,就可能率先撬开通用具身智能的大门。
自变量就是这样一家公司:做机器人的身体、做数据采集、也做VLA、世界模型WM和世界统一模型WUM三种路线的具身模型。为了摘到“具身模型”的月亮,自变量必须自己动手,去物理世界采集数据,自己播种浇灌。
而在当下社会中,哪里是高价值物理数据的富矿?自然是用户的家庭家政场景。
家庭场景的价值,主要是带来真实数据、真实反馈和真实约束。实验室里的机器人可以被反复调试,展厅里的机器人也可以被安排在相对可控的环境里。但一旦进入家庭,它就会遇到大量无法提前设计的问题:家具怎么摆,地面是什么材质,光线如何变化,杂物放在哪里,用户会怎样下指令,机器人又会在哪些看似简单的任务上失败。

真实世界数据对应的是它对真机和复杂场景的重视。相比只依赖公开视频或仿真数据,机器人不仅要进入真实环境,还需要在真实任务中持续获得反馈。不同家庭、不同物体、不同光线和不同地面条件,都会影响机器人的判断和动作结果。


本体则决定模型能否真正落地。自变量自研通用轮式双臂机器人、人形机器人、高自由度灵巧手和机械臂等硬件体系。

换句话说,自变量想打通的不是单一模型,也不是单一机器人本体,而是模型、数据和身体之间的循环。
这条路线和创始团队背景有关。
创始人兼CEO王潜本科毕业于清华大学,后赴美国攻读南加州大学博士,是神经网络注意力机制领域的早期探索者之一。联合创始人兼CTO王昊是北京大学计算物理博士,曾任IDEA研究院大模型团队负责人。这种创始团队的背景注定了自变量的基因中天生就是模型和算法
利用这些数据,在具身模型的研发上,自变量同时在走VLA、WM和自主架构WUM世界统一模型,三条路线。
VLA,即Vision-Language-Action,通常被理解为“视觉-语言-动作”模型。它试图把机器人“看见环境、理解指令、生成动作”三个环节连接起来,让机器人根据视觉输入和语言指令,动态生成下一步动作。自变量第一代具身基础模型WALL-A,走的就是这一路线。
2024年底,自变量发布基于VLA架构的第一代具身基础模型WALL-A。2025年9月,公司又将同一思路架构下的轻量化模型版本WALL-OSS开源。
但传统VLA架构仍有不足:更像是三个模块的拼接:视觉模块负责识别物体,语言模块负责理解指令,动作模块负责生成轨迹。数据在不同模块之间的语义逐级传递,每经过一次边界,就可能发生信息损耗和延迟。不仅如此,VLA更像是在模仿和预测,而不理解物理规律,也就不能理解如何正确地与物品交互。
2026年4月,自变量对原有技术路径进行升级,推出新一代具身智能基础模型WALL-B。WALL-B的核心是WUM架构,即World Unified Model。WUM试图把视觉、语言、动作、物理预测等能力放进同一个网络里,从零开始联合训练,减少模块边界和数据搬运带来的损耗。
过去很长时间里,很多人对机器人的想象,来自科幻电影、发布会视频和短视频演示。那些内容塑造了一种期待:机器人一进入家庭,就应该像人一样理解环境、完成任务、解决问题。
但真实产业路径不是这样发生的。过去机器人行业展示给公众的,更多是能力上限。而家庭场景暴露出来的,则是系统下限。
机器人进入家庭,不会从完全替代人工开始,而会从人机协作开始。它不会一开始就是完美管家,而更像一个不断学习的实习生。它可能需要远程协助,可能把拖鞋放到厨房,也可能擦桌子擦到一半停下来“思考”。但它也可以24小时工作,并把每一次真实任务中的反馈,变成下一轮系统迭代的材料。



机器人行业下一阶段的竞争,可能会变得更具体,也更残酷。真正拉开差距的,可能是谁能更早进入真实场景,并在真实场景里形成模型、反馈、服务和商业化闭环。
而这道最残酷、最真实的关口前,自变量成为了第一个闯关者。











