在北京亦庄举办的机器人马拉松赛事中,300余台机器人以自主导航或人类遥控的方式完成了全程竞逐。这场赛事不仅展现了机器人运动能力的显著进步——部分人形机器人已能以自主方式完成半程马拉松,更折射出行业发展的核心矛盾:尽管应用场景从工厂流水线拓展至春晚舞台,但机器人智能水平仍受制于数据瓶颈。
觅蜂科技董事长姚卯青指出,具身智能的突破依赖于数据量的指数级增长与数据结构的优化。当前机器人行业正陷入"数据荒漠"困境,高质量真机数据的稀缺性远超石油资源。以GPT-5为例,其训练数据量达100万亿token,相当于正常人连续诵读100亿小时的文本量,而机器人所需的三维空间数据在采集难度、成本与复杂度上呈几何级增长。
数据供需矛盾在产业链两端尤为突出。从供给端看,全国虽涌现数百家数据采集企业,但普遍缺乏标准化运营体系。某企业联合创始人朱政透露,其公司训练模型使用的数十万小时数据中,仅三成来自自主采集,且多数在实验室环境下获取。这些数据需经过精细标注才能使用,但市场现存数据普遍存在传感器同步误差、标注粗糙等问题,导致"垃圾进、垃圾出"的恶性循环。
需求端同样面临困境。AI大模型公司与机器人企业虽急需海量数据,却难以获得稳定供给。姚卯青估算,当前全行业积累的高质量真机数据不足50万小时,而实现智能涌现可能需要亿级小时数据。这种供需差距达百倍甚至千倍,直接制约了技术落地速度——某独角兽企业每年在GPU算力上投入数千万,仍因数据效率低下难以扩大训练规模。
行业标准缺失进一步加剧了产业碎片化。各企业数据格式、标注规范自成体系,形成难以互通的数据孤岛。姚卯青分析,这种局面导致协作成本高企,阻碍了产业规模化发展。以数据采集成本为例,真机数据每小时采集费用超200元,按此计算,采集特斯拉FSD级数据量的成本将远超行业承受能力。
在这场数据马拉松中,行业正探索提高数据利用效率的新路径。朱政透露,其公司正同步优化模型架构与运行效率,以应对数据量扩张带来的算力成本压力。正如北京亦庄赛事中机器人逐步逼近人类奔跑速度,数据瓶颈的突破或许将成为具身智能从实验室走向千行百业的关键转折点。











