在科技领域,具身智能已成为备受瞩目的赛道,资本不断涌入,创业公司估值持续攀升,机器人正逐步从演示视频迈向实际应用场景。然而,行业繁荣背后,一个关键问题始终未得到彻底解决:机器人为何仍缺乏“通用性”?
尽管许多机器人在特定任务中表现优异,但一旦更换操作对象或场景,其性能便大打折扣,甚至需要重新训练。RoboScience机器科学联合创始人汪涛指出,数据匮乏是制约机器人发展的核心瓶颈。他解释称,大语言模型的成功已证明,模型规模、算力及数据量的扩大能显著提升能力,但这一规律在机器人领域遭遇挑战。
与互联网上海量的文本数据不同,机器人需要学习的是人与物体、环境之间的物理交互数据,这类数据天然稀缺且难以获取。汪涛认为,构建真正具备通用操作能力的具身智能大模型,所需数据规模可能远超当前大语言模型,甚至达到千万小时乃至亿万小时级别。然而,目前全球头部企业掌握的高质量真机数据仅数十万小时,最高约30万小时,与目标差距巨大。
据RoboScience测算,具身智能领域的数据缺口高达大语言模型的10⁶至10⁸倍。这意味着,机器人行业若想实现类似ChatGPT的突破,可能需跨越1亿倍的数据鸿沟。面对这一难题,传统解决方案依赖真机采集,但成本与效率问题突出。
真机采集虽能获取高质量数据,但人力成本高昂且产能有限。例如,人工采集数据每人每天仅能生成几百条,月产量仅万条级别,远无法满足大模型对数据规模的指数级需求。后训练阶段需大量人工标注,每项复杂操作可能需上万条标注数据,成本随任务数量线性增长。
为突破数据瓶颈,行业开始探索新的技术路线。过去,VLA(视觉语言行动模型)和模仿学习被视为主流方案,但随着实践深入,其架构与数据限制逐渐显现。部分团队转而尝试“以算力换时间”,通过利用互联网视频及自研仿真器生成数据,替代人工采集,加速基座模型预训练。
RoboScience机器科学创新性地以“物体在三维空间中的运动轨迹”为数据格式,构建了全自动数据管线。这一方法将数据成本压缩至几分钱一条,仅为真机采集的几十分之一,而产能则完全取决于算力,理论上无上限。据介绍,今年年初,该公司视频数据量已超百万小时,仿真数据达十亿至百亿量级,并计划将视频数据扩展至千万小时,仿真数据提升至TB级别,接近ChatGPT数据量的十分之一。
尽管机器人的“ChatGPT时刻”尚未到来,但资本市场对具身智能的热情持续高涨。IT桔子数据显示,今年上半年,国内具身智能及机器人领域共发生288起融资事件,涉及226家企业,披露融资额超460亿元,其中49家公司在半年内完成两轮及以上融资。
不过,资本态度正趋于谨慎。汪涛提到,机构投资者更青睐能解决核心问题的团队,且今年更关注实际落地效果及客户复购率等指标,而非单纯依赖概念或故事。这些指标被视为验证团队能力的关键依据。











