ITBear旗下自媒体矩阵:

预训练多样性成关键:Physical Intelligence解锁机器人跨具身学习新路径

   时间:2025-12-17 14:30:26 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

机器人领域近期迎来重要突破,两家初创公司分别从不同角度验证了规模效应对机器人智能发展的关键作用。Generalist AI公司率先发布GEN-0模型,通过27万小时真实操作视频训练,首次在机器人领域建立起类似语言模型的扩展规律——随着数据量和计算资源的增加,模型在下游任务中的表现呈现可预测的幂律提升。这一发现引发行业震动,标志着机器人智能可能步入与大语言模型相似的发展轨道。

紧随其后,Physical Intelligence公司联合佐治亚理工学院的研究团队,在《视觉-语言-动作(VLA)模型的跨具身迁移能力》研究中证实:当模型在多样化场景、任务和机器人形态上完成预训练后,会突然获得从人类视频中学习技能并迁移至机器人执行的能力。这种能力在预训练规模不足时无法显现,即使采用精心设计的对齐机制也难以实现有效迁移。研究团队通过极端简化的训练方案验证了这一现象——将人类视频视为"另一种机器人形态"进行联合训练,仅使用基础轨迹预测和语言任务目标,完全摒弃显式对齐技术。

实验设计极具挑战性:研究团队刻意移除所有域适应模块和手工对齐组件,仅保留最基本的联合训练框架。在微调阶段,人类数据与机器人数据按1:1比例混合,通过逐步增加预训练数据的多样性(从25%到100%),观察模型性能变化。结果显示,当预训练规模达到临界点后,模型在四项泛化测试中的表现几乎翻倍。特别是在鸡蛋分拣任务中,联合训练模型将分拣准确率从57%提升至78%,平均每次多完成4个正确放置,成功从人类视频中获取了机器人数据中不存在的"分拣"概念。

这种能力涌现呈现出明显的非线性特征。在梳妆台整理任务中,50%预训练规模下的模型从人类视频中获益有限,但当规模提升至75%后,性能开始稳定增长。通过分析模型视觉表征的t-SNE降维图,研究团队发现:随着预训练多样性增加,人类数据与机器人数据的表征逐渐重叠,最终形成"具身无关"的中间表示。这种抽象能力使模型能够自动将人类手臂运动与机械臂操作映射到语义相近的空间,从而消除形态差异带来的障碍。

研究同时指出人类数据的局限性。在餐桌清理任务中,真实机器人数据仍显著优于人类视频,表明人类数据应作为重要补充而非完全替代。腕部相机的使用效果则呈现任务依赖性——在某些场景下能提升性能,但在其他场景中影响微弱。这些发现为数据采集策略提供了新思路:人类视频采集的传感器配置需根据具体任务特点进行优化设计。

行业对这项研究反应热烈。Figure AI公司已宣布启动"Go-Big"计划,与房地产巨头合作从十万套住宅中采集人类生活视频,声称实现从纯人类视频到机器人导航的零样本迁移。但新研究同时设置重要前提:要有效利用人类视频,必须先构建足够强大的预训练基础。这意味着团队需要先投入资源采集多样化机器人数据,才能"解锁"从人类视频中学习的能力。当前研究使用的人类数据量(每任务3-5小时)仍属有限,未来如何利用非结构化人类视频数据仍是开放问题,但研究已确立重要基线:在适当预训练条件下,少量人类视频即可产生显著迁移效果。

深入分析发现,多样化预训练迫使模型发展出抽象能力,这种能力恰好是跨越人机鸿沟的关键。当模型不再依赖特定视觉外观或运动学参数,而是捕捉更高层级的语义信息时,人类与机器之间的形态差异就变得不再不可逾越。这种规模效应不仅体现在参数量上,更关键的是预训练数据在场景、任务和具身形态三个维度的多样性。对于正在规划数据采集策略的团队而言,这提示数据多样性可能比单纯的数据量更为重要。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version