在传统认知中,电子产品的性能往往在开箱时达到顶峰,随后便因使用而逐渐折旧。然而,通用机器人领域正试图打破这一固有设定。如果一款在实验室完成训练的AI机器人,面对家中光线昏暗的房间或堆满杂物的茶几便无法正常工作,那么它只能被视为昂贵的实验品。这正是当前具身智能面临的困境:尽管在互联网数据中训练出了知识渊博的预训练模型,但当它们进入充满未知的物理世界时,这些“理论高手”常常因环境变化而手足无措,无法将知识转化为实际操作能力。
通用机器人的发展不应局限于出厂时的固定性能,而应具备在真实环境中持续学习和进化的能力。为此,智元具身研究中心提出了SOP(Scalable Online Post-training)框架,旨在实现机器人在真实世界中的分布式持续学习。这一框架首次在物理世界的后训练中深度整合了在线、分布式和多任务机制,构建了一个“多机平行现实”与“云端集中进化”的闭环系统,打破了机器人认知的时间边界,使智能进化不再止步于出厂时刻。
基于互联网海量数据预训练的视觉-语言-动作(VLA)模型,虽然赋予了机器人一定的通用泛化能力,但始终存在一个难以跨越的鸿沟:理解与执行之间的差距。例如,预训练模型可能“知道”如何叠衣服,但面对材质松软、光照复杂的真实衣物时,往往会因分布偏移而无法完成任务。传统的后训练方法通常采用离线、单机、顺序的模式,即采集数据、离线训练、更新模型、再次部署。这种模式不仅探索和迭代速度缓慢,还容易在学习新任务时遗忘旧能力。
SOP框架颠覆了这一传统范式,将VLA的后训练从“单机单打独斗”转变为“在线、集群、并行”的集体作战。具体而言,SOP构建了一个“多机平行现实→云端集中学习→模型即时回流”的超级闭环。在SOP架构下,多台机器人组成集群,共享同一个VLA策略,同时探索不同任务,如叠衣服、整理杂货或处理纸盒。这种空间上的并行大幅拓宽了真实世界中状态-动作分布的覆盖面,使系统能瞬间接触广泛场景,避免单机学习陷入局部瓶颈。人类还可以通过少量干预性修正加速学习过程。
所有机器人的运行轨迹、奖励信号和人工纠正信息都会实时上传至云端GPU集群,由一个通才学习器持续在线更新策略模型。为了支撑大规模实时并发,SOP在底层架构上搭建了工业级分布式数据基座,采用先进的Actor-Learner分离架构,通过消息队列完全解耦数据生产与消费。这一设计使系统具备“零配置”的弹性水平扩展能力,新机器人加入集群无需修改代码或停机配置,只需连接消息队列即可即插即用,自动分担数据采集任务。同时,针对物理世界复杂的网络环境,SOP建立了严苛的容错与数据原子性机制,确保数据要么完整保存,要么完全回滚,避免脏数据污染核心训练池。
为了提高学习效率,SOP内置了动态采样器,能够根据任务的实时训练损失自动调整数据训练权重,加大对薄弱环节的在线数据训练力度。这种有针对性的学习策略使边缘端机器人能在数秒至数十秒内获得云端最新进化的大脑,实现群体智能的实时同步。例如,如果一台机器人在北京学会了某个抓取动作的微调,几分钟后,位于上海的另一台机器人就能应用这一最新记忆。
传统单机在线训练常面临两难困境:为了精通某项任务,模型容易退化为只懂这一件事的专家,丧失通用VLA能力。SOP通过多任务并行巧妙化解了这一矛盾。由于在更广阔的分布中同时进行多任务学习,而非按顺序逐个学习,SOP确保了VLA的通用性不会因针对某一任务的性能提升而受损。
为了验证SOP的有效性,研究团队基于自家的双臂14自由度移动操纵机器人平台进行了实验。该机器人配备“三目”RGB视觉系统和7自由度灵活手臂,具备在复杂非结构化环境中执行精细微操的硬件基础。实验任务极具挑战性,涵盖500多种不同形态商品的杂货补货、涉及柔软易变形物体的叠衣服以及协同打开冰柜门等复杂动作。实验结果显示,结合SOP的在线多机方案在各类测试场景中全面超越了传统单机或离线方法。特别是在叠衣服和叠纸盒等长序列任务中,SOP训练出的模型展现了显著的“恢复行为”,即当操作出现细微偏差时,机器人能学会类似人类的微调动作进行补救,而非直接导致任务失败或中止。
在扩展性实验中,团队设置了单机、双机和四机三种配置,发现随着分布式集群规模的扩大,模型性能呈现出近乎线性的增长趋势。在严格限制总训练时长为3小时的前提下,四机并行学习的最终成功率达到92.5%,比单机提升了12%。更关键的是,SOP成功将硬件扩展转化为学习时长的极致压缩。要达到80%的性能基准线,单机需要174分钟,而四机战队仅需72分钟,训练速度达到原来的2.4倍。这表明,多机并行采集不仅能防止模型对单机特征的过拟合,也证实了在物理世界中通过增加设备数量加速模型进化的Scaling Law是真实有效的。
最后一组实验揭示了SOP在训练成本上的优势。团队对比了分别使用20小时、80小时和160小时数据预训练的模型,发现虽然预训练规模决定了模型的初始能力,但SOP能给所有不同基础的模型带来稳定提升。关键在于投入产出比:当预训练数据从80小时增加到160小时,巨大的算力和数据投入仅带来4%的性能提升,而SOP仅用3小时的在轨经验就换来了约30%的性能提升。这一数据证明,部署后的在线学习不是对预训练的简单重复,而是更高维度的优化。不过,实验也指出,SOP并非万能药,最终的性能上限仍受预训练模型初始规模的限制,表明在线学习本质上是既有知识的超级优化器,而非大规模预训练的完全替代品。
SOP框架的提出,改变了通用机器人系统的生命周期。传统工业逻辑中,产品交付意味着研发的终点,但在具身智能时代,这一逻辑正被反转。通用机器人应是一个在真实运行中持续进化的“生命体”。SOP使机器人可以带着尚不完美的初始模型上线,极大降低了产业落地门槛。部署不再是技术迭代的终点,而是更大规模学习的起点。随着更多机器人走入真实世界,分布式集群规模将呈指数级增长,群体智能的增长速度也将前所未见。如果VLA模型让机器人首次具备了通用的理解与行动能力,那么SOP则让众多机器人的经验共同驱动智能的快速成长,使训练不再局限于过去的数据集,而是在每一次交互中不断进化。这或许正是通用机器人走向大规模真实世界部署的关键一步。









