具身智能领域正面临一个关键瓶颈:现有数据规模难以支撑机器人对真实世界的深度理解。尽管视觉语言动作(VLA)等大模型在预训练阶段取得突破,但当机器人进入真实场景时,其能力提升仍高度依赖人工标注数据,难以应对复杂多变的物理环境。这种局限性导致具身智能尚未实现真正的规模化应用,而突破这一困境的关键在于获取高质量的真实交互数据。
传统数据采集方式主要依赖实验室环境或仿真模拟,但这些方法无法覆盖开放场景中的长尾问题。当前主流方案是通过人工示教或遥操作获取训练数据,不仅成本高昂且规模有限。上海某研究团队提出的全新训练框架,尝试将机器人部署过程转化为持续学习机制——通过让机器人在真实环境中自主运行,将交互经验实时回传至云端,形成"数据-策略"的闭环进化系统。
该系统的核心创新在于构建了动态数据飞轮机制。在真实任务执行中,机器人集群产生的所有交互数据,包括成功轨迹、试错恢复过程乃至人类干预的失败案例,都会被统一存储至云端缓冲区。强化学习算法将这些传统意义上的"无效数据"转化为优化模型的关键信号,使策略网络能够从错误中学习风险评估能力。随着部署规模扩大,云端策略会定期更新并下发至终端设备,形成自主迭代闭环。
针对真实世界数据的复杂性,研究团队开发了分布隐式价值学习(DIVL)算法。该算法突破传统强化学习对固定奖励值的依赖,通过分析动作概率分布来评估表现质量。这种机制使机器人能在稀疏奖励环境下,准确识别高风险动作与潜在优化方向,有效解决了传统方法过度乐观的问题。同时,结合Q学习伴随匹配技术,策略更新过程从全局重建转变为局部优化,显著提升了大规模部署时的训练效率。
在智元G1双臂机器人集群的实测中,该系统展现出突破性表现。测试任务包含商超动态补货、泡茶、调酒等八类复杂操作,单个任务持续时间达5-8分钟,涉及数十个连续物理交互步骤。实验数据显示,经过在线经验积累的通用策略在所有任务中平均成功率达95%,较传统行为克隆方法提升19个百分点,较先进离线强化学习基线提升9-13个百分点。特别是在需要错误恢复的长程任务中,系统成功率实现质的飞跃,验证了真实世界持续学习对突破操作复杂度天花板的有效性。
这项研究重新定义了机器人能力迭代模式。传统方案将部署视为训练终点,而新框架证明通用策略应具备自主进化属性。当机器人能够从真实物理交互中持续提取优化信号,就能突破人工标注数据的局限,在开放场景中实现长期商业价值。这种"部署即学习"的范式转变,为具身智能的产业化应用开辟了全新路径。










