在机器人技术领域,一项名为SOP(Scalable Online Post-training)的创新系统近日引发关注。该系统由智元具身研究中心研发,旨在解决通用机器人在真实世界部署时面临的两大核心挑战:既要适应复杂多变的物理环境,又要具备处理多样化任务的泛化能力。这一突破性成果标志着机器人训练范式从实验室环境向真实场景的跨越式发展。
传统VLA(视觉-语言-动作)预训练模型虽具备基础通用性,但在真实场景中常因任务特异性要求不足而受限。研究团队指出,离线数据采集的边际效益递减问题,使得单纯依赖预训练的机器人难以持续提升性能。为此,SOP系统创造性地将训练架构重构为"在线、集群、并行"模式,通过多机器人协同实现低延迟闭环学习:机器人集群在执行任务时实时采集交互数据,云端服务器同步进行模型更新,更新后的参数在分钟级内回传至所有机器人。
该系统的核心优势体现在三方面:其一,分布式探索机制使状态空间覆盖率提升300%以上,有效突破单机训练的探索瓶颈;其二,基于最新策略的实时推理采集,将分布偏移问题降低至传统方法的1/5;其三,通过空间并行而非时间串行的训练方式,在提升任务性能的同时保留了模型的泛化能力。实验数据显示,采用SOP框架的HG-DAgger算法在商超场景中实现33%的综合性能提升,叠衣服任务的吞吐量更是跃升114%。
在硬件扩展性测试中,四机器人集群展现出显著优势。相同训练时间内,集群系统的任务成功率比单机模式高出12%,且训练效率提升至2.4倍。研究团队特别强调,多机协同能有效防止模型过拟合单机特征,这种硬件扩展带来的学习加速效应,为大规模机器人部署提供了可行性路径。更引人注目的是,在预训练数据边际效应递减的情况下,SOP系统仍能通过在线经验实现突破性提升——仅需3小时在轨训练即可获得30%的性能增益,远超80小时人类专家数据的4%提升。
实际场景测试进一步验证了系统的鲁棒性。当机器人被部署到全新环境时,虽然初始性能出现预期下降,但经过SOP系统数小时在线训练后,其任务执行能力迅速恢复至稳定水平。这种"部署即进化"的特性,彻底改变了传统机器人的生命周期管理范式。研究团队形象地比喻:"机器人不应是出厂即定型的工业产品,而应成为在真实世界中持续进化的智能生命体。"
目前,SOP系统已实现与主流后训练算法的无缝集成,其模块化设计支持快速迭代升级。这项突破不仅为通用机器人商业化落地扫清关键障碍,更开创了"群体智能"的新范式——通过共享个体经验实现集体进化,让每台机器人的每一次操作都成为推动整个系统智能跃升的阶梯。随着更多真实场景数据的积累,这种训练模式有望催生出具备真正自主进化能力的机器人生态系统。









