ITBear旗下自媒体矩阵:

27万小时真实数据支撑,GEN-0模型揭示机器人智能扩展新规律

   时间:2025-11-06 04:19:27 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当Physical Intelligence在2024年底发布机器人基础模型π0时,其团队曾将这款产品类比为“机器人领域的GPT-1”。这一表述背后蕴含着对技术演进路径的期待——如同OpenAI通过语言模型开启自然语言处理新纪元,机器人智能或许也能通过扩大模型规模与数据量实现质的飞跃。然而彼时,机器人领域的“扩展定律”(Scaling Law)尚未得到系统性验证,更多停留在理论设想阶段。

2025年11月4日,由前Google DeepMind高级研究员Pete Florence创立的Generalist AI公司,通过发布GEN-0模型为这一领域提供了关键性突破。该研究不仅证实了机器人基础模型存在可量化的扩展关系,更首次在物理智能训练中观测到语言模型领域特有的“模型僵化”(ossification)现象。这一发现表明,机器人智能的发展遵循着比预期更复杂的规律,但其核心仍可通过数据与算力的规模效应进行预测。

在计算机视觉与自然语言处理领域,扩展定律已被广泛接受,但机器人领域始终缺乏实证支持。主要障碍在于高质量数据的稀缺性与模型规模的局限性。尽管MIT与慕尼黑工业大学在2024年通过元分析发现机器人模型存在扩展趋势,但相关研究仍基于较小规模的参数(亿级)与数据集(万小时级)。当研究团队将模型参数扩展至70亿、训练数据推向27万小时的真实操作轨迹时,意外发现了物理智能的“相变点”。

实验数据显示,10亿参数的模型在训练过程中迅速出现僵化现象,表现为模型权重无法吸收新信息,训练损失停止下降。这种现象此前仅在百万级参数的语言模型中观察到,且规模远小于当前实验。而当模型参数达到60亿时,僵化现象消失,模型展现出强大的多任务学习能力。70亿参数以上的模型不仅能内化大规模预训练数据,更可通过少量后训练(几千步)快速适应新任务。目前,GEN-0已扩展至100亿参数规模,其适应新任务的速度与后训练需求呈反比增长。

这一发现与人工智能领域的“莫拉维克悖论”(Moravec's Paradox)形成呼应。该悖论由机器人学家Hans Moravec在1988年提出,指出人类认为简单的感知与灵巧操作(如抓取物体),对机器而言需要极高的计算复杂度;而人类认为困难的抽象推理(如数学计算),机器反而能更高效完成。GEN-0的实验为悖论提供了定量证据:物理世界的常识(physical commonsense)存在更高的“激活阈值”,需要更大规模的计算资源才能涌现。

从工程实践角度看,这种可预测的扩展关系具有重大价值。研究团队通过幂律公式建立了模型规模、预训练数据量与下游任务性能的量化关系。以服装处理任务为例,他们可精确估算需要多少预训练数据才能将动作预测误差降至特定阈值。这种预测能力使资源分配从“赌博式探索”转变为“预期性投资”,显著提升了研发效率。

在训练机制层面,GEN-0引入了名为“谐波推理”(Harmonic Reasoning)的创新框架。传统机器人系统常采用“快速反应系统(System 1)”与“慢速规划系统(System 2)”的分离架构,前者处理即时响应,后者负责长期决策。但这种设计导致接口复杂、灵活性受限。谐波推理则将感知、思考与行动视为连续时间轴上的异步token流,通过训练模型协调三者间的相互作用。

具体而言,模型在处理视觉输入时,可同时生成“内部推理”token(不直接转化为动作,但影响后续决策)与“动作控制”token(直接操控机器人关节)。这种设计使模型能在执行当前动作的同时规划未来步骤。在组装相机套件的演示中,机器人需完成将清洁布放入盒子、折叠纸板托盘、取出相机、合上盒盖并插入固定卡扣等系列精细操作,全程无需显式子任务分解,而是通过统一推理流完成。

数据规模与质量是GEN-0的另一大突破。该模型在27万小时的真实世界操作轨迹上进行预训练,数据收集自全球数千个家庭、仓库与工作场所,规模比公开的最大机器人数据集大几个数量级。为实现这一目标,Generalist AI部署了数千个数据收集设备与机器人,通过专用网络线路支持高带宽数据上传,并动用数万个核心进行多模态数据处理,每日可消化相当于6.85年的真实操作经验。

数据多样性同样经过精心设计。研究团队将数据分为三类:针对特定任务的演示数据(Class 1)、开放式操作数据(Class 3)与介于两者之间的中间数据(Class 2)。消融实验显示,不同数据混合会导致模型特性差异。例如,某些数据配置训练的模型在预测误差与反向KL散度上表现优异,更适合监督微调;另一些配置虽预测误差较高,但输出分布多模态性更强,对强化学习后训练更有利。这些发现为数据收集策略提供了直接指导。

Generalist AI的创始团队由三位资深研究员组成:Pete Florence在麻省理工学院期间专注于视觉引导操作,提出Dense Object Nets等开创性工作;加入Google后,他参与RT-2、PaLM-E等项目,探索大模型与机器人的融合。Andy Zeng从机器人抓取研究起步,其代表作TossingBot曾获RSS 2019最佳系统论文奖提名,在Google期间与Pete合作发表超17篇论文。Andrew Barry则带来硬件与系统集成经验,曾在MIT研究高速自主无人机导航,后参与波士顿动力Spot机器狗的机械臂项目研发。

三人认为,创造通用机器人的关键在于重新聚焦数据、模型与硬件的交汇点。他们指出,仅依赖互联网数据无法构建能与物理世界交互的智能层,必须通过真实操作数据训练模型。这一共识促使他们成立Generalist AI,目标直指“让通用机器人成为现实”。

尽管GEN-0展示了机器人智能的扩展潜力,但研究仍存在未解之谜。目前,模型架构细节、训练算法与代码尚未公开,谐波推理的具体实现方式也未披露。数据收集方法、质量控制流程与标注策略等关键信息同样缺失。虽展示了部分演示视频,但缺乏系统成功率统计与对比数据,难以全面评估模型性能。尽管如此,GEN-0已证明通过扩大模型规模与高质量物理数据,机器人智能可遵循独特但类似语言模型的发展轨迹,为通用机器人的实现奠定了基础。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version