在机器人技术迅猛发展的当下,人形机器人的演示已不再罕见,但回顾几年前,这类成果曾被视为遥不可及的梦想。Ted Xiao,这位在具身智能领域深耕多年的研究者,曾是Google DeepMind的核心成员,主导了RT-1、RT-2等标志性项目。如今,他加入亚马逊创始人贝佐斯创立的新型AI公司Project Prometheus,致力于突破具身智能在大规模环境中的推理与控制难题。
在最近的一次访谈中,Ted Xiao以亲历者的视角,系统梳理了具身智能领域近十年的变革。他提到,团队曾经历“Code Yellowish”状态——一种介于危机与正常之间的研究困境。当时,他们暂停论文发表,专注收集高质量数据,最终积累了约8.7万条轨迹。这一决策在当时被视为反主流,却为后续突破奠定了基础。
Ted将机器人学习的发展划分为三个阶段:存在性证明时代、基础模型时代和规模化时代。在存在性证明时代,团队通过QT-Opt算法解决了连续动作空间的难题,构建了“机械臂农场”系统,证明了端到端学习在真实世界中的可行性。随后,他们探索了多任务学习,包括BC-Z、MT-OPT等项目,以及“Learning from Play”这一充满趣味性的方向。
然而,强化学习的收益逐渐递减,模仿学习虽开箱即用但准确率受限。团队意识到,数据才是瓶颈所在。于是,他们暂停论文发表,专注收集高质量数据。这一决策最终得到回报:大规模模仿学习不仅可行,而且成为关键突破口。Ted形容这一阶段为“slowing down to speed up”——放慢论文发表速度,却为后续爆发积累了核心资产。
进入基础模型时代,大语言模型和视觉语言模型的崛起为机器人学习提供了新工具。SayCan项目首次将语言模型与机器人结合,通过语言模型生成高层计划,机器人则通过价值函数评估可行性。RT-1进一步将机器人策略转化为Transformer模型,参数约5000万,训练数据覆盖约500种任务。RT-2则更激进,直接将视觉语言模型作为策略骨干,涌现出大量推理和泛化行为。
Open X-Embodiment项目联合全球34家机构,开源了跨机器人形态的数据集,证明了技能迁移的可能性。Ted坦言,RT-2的思路本可更早实施,但团队在RT-1阶段花费了大量精力搭建模块,而非直接利用现有模型。这一经验促使他们在后续研究中更注重“最小改动”原则。
规模化时代以Gemini Robotics为标志,参数、数据和本体复杂度同时爆发。硬件端,双臂系统和高频控制成为主流,数据质量显著提升。Gemini Robotics ER通过增强具身推理能力,解决了物理常识和空间推理问题。Gemini Robotics 1.5则引入推理阶段“思考”过程,将长时域任务分解为短时域指令。
动作迁移能力成为另一亮点:同一神经网络可将运动经验零样本迁移到不同平台,包括仿人机器人和机械臂。这一阶段的研究呈现多维度并行爆发的态势:模型性能、评估体系、数据采集和商业化路径均取得进展。例如,基于人类第一视角操作数据的预训练成为新趋势,特斯拉式的闭环逻辑也开始在机器人领域显现。
在访谈最后,Ted被问及“机器人的ChatGPT时刻”何时到来。他认为,产品层面可能需一两年或更久,技术层面则依赖架构、视频动作模型和高级全身反应系统等拼图的完善。他个人更看好视频动作模型和第一人称人类数据的潜力。






