北京亦庄近日举办的人形机器人半程马拉松赛事引发广泛关注,100多支参赛队伍携300余台人形机器人参赛,多项成绩刷新人类世界纪录。这场科技盛会背后,物理AI领域正面临数据获取的深层挑战——相比运动控制技术的突破,数据匮乏已成为制约机器人"大脑"进化的核心瓶颈。
当生成式AI在文本创作、办公辅助等领域取得突破后,物理AI开始向真实世界渗透。但与互联网语料天然丰富不同,物理世界的数据采集存在双重困境:既因场景分散导致数据稀缺,又因涉及多模态交互难以标准化。这种特殊性使得具身智能从研发阶段就陷入"数据饥荒",有企业负责人直言:"没有足够数据支撑,再先进的算法也只是空中楼阁。"
针对这一难题,科技巨头与初创企业正探索不同解决方案。英伟达推出的物理AI数据工厂,试图通过统一架构实现训练数据的自动化生成、增强与评估,其高管强调:"物理AI的突破取决于数据生产能力。"国内企业则更侧重应用落地,智元机器人联合创始人彭志辉提出新观点:机器人不仅是执行终端,更是连接数字世界与物理世界的流量入口,数据供给能力将决定下一代生产力平台的归属。
这种认知差异体现在具体实践中。觅蜂科技发布的物理AI数据服务平台,尝试将数据生产转化为可持续供给的基础设施,通过平台化运作降低数据获取成本。该公司CEO姚卯青透露,当前数据市场呈现"抢购式"需求,大型采购方往往要求"有多少收多少",供需失衡状态凸显。数据显示,物理AI数据量仅为大语言模型的十万分之一,这种差距源于数据生成机制的根本差异。
数据需求结构呈现明显分层特征。技术前沿的大模型团队、布局具身智能的科技企业以及快速迭代的初创公司构成主要买方,尽管规模资金各异,但对数据的依赖程度高度一致。这种格局与早期AI算力市场相似,在技术探索期,基础设施环节往往率先形成利润中心。姚卯青指出:"就像算力成为生产要素,数据正在从辅助资源转变为基础生产资料。"
在数据获取路径上,行业形成差异化策略。国金证券研报指出,破解机器人智能化的关键在于构建多层次数据体系:互联网数据获取容易但质量参差,仿真数据生成高效却存在物理差距,真机数据精度最高但采集成本昂贵。英伟达选择通过仿真技术扩展数据边界,其Cosmos世界模型与Omniverse仿真平台可生成符合物理规则的合成数据,但专家提醒仿真数据仍需真实数据校准。
数据供给市场正在形成动态平衡。觅蜂科技的数据规划显示,年度千万小时产能中,60%-70%来自成本较低的无本体采集,真机数据维持在200-300万小时规模。这种结构反映行业现实:在数据规模与真实性之间,企业不得不持续调整配比。有分析师认为,未来发展方向是提升模型对仿真-现实差异的辨识能力,而非单纯追求数据一致性。











