具身智能领域正经历一场以数据为核心的新竞赛。随着行业对模型能力的要求不断提升,数据这一底层支撑要素的重要性日益凸显。过去一年间,具身智能企业的竞争焦点从硬件本体转向算法大脑,而近期,数据资源已成为决定技术突破的关键变量。
多家企业近期在数据领域动作频频。戴盟机器人联合海内外学术机构及企业,发布了具身数据集Daimon-Infinity,包含触觉、视觉、动作轨迹及语音文本等多模态信息,其中1万小时数据已开源。该公司计划年内将数据集规模扩展至数百万小时,覆盖近十亿条数据。这一数据集通过自研的二指夹爪、五指手套及高分辨率传感器,实现了对操作过程的精细化记录,尤其注重触觉数据的采集,以补充传统视觉数据在精细操作中的不足。
触觉数据的引入显著降低了模型训练对数据规模的依赖。戴盟方面表示,触觉能够直接感知接触关系与物体特性,避免了视觉信息中因多视角采集带来的冗余数据和遮挡问题。在实际验证中,引入触觉数据后,模型在接触关键环节的操作任务中成功率明显提升。目前,该数据集已在多个含触觉模型中完成验证,并计划逐步转向外发式、众包式采集网络,以提高数据获取效率。
数据资源的商业价值已初步显现。戴盟透露,其采集的数据已与部分具身大脑研发机构及企业对接,这些合作方不仅使用数据,还参与前期数据需求定义。与此同时,行业内的商业模式探索也在加速。例如,某科技企业推出了“具身智能数据超市”,为模型公司提供数据调用和定制采集服务;湖北人形机器人创新中心则向智元机器人交付了数千小时的训练数据,推动了数据供需双方的深度合作。
国际层面,大规模数据对模型能力的提升效果持续被验证。英伟达研究团队通过超过2万小时的第一视角视频训练模型,观察到数据规模与模型能力呈正相关。更激进的探索来自Generalist AI,其发布的GEN-1模型使用了50万小时的真实世界操作数据,模型性能和任务成功率大幅提升,初步验证了具身模型的Scaling Law。该公司通过低成本穿戴设备采集视频数据进行预训练,既降低了成本,又突破了采集规模的瓶颈。
具身智能的数据供给呈现金字塔结构。顶层数据由机器人本体采集,精度高但规模受限;中层数据通过手持式设备等方式采集,强调可部署性与规模化;底层数据则以人为中心,通过第一视角、多模态方式获取大规模数据,支撑模型在更大规模数据上的训练需求。这种分层体系正在成为行业共识,推动具身智能从技术竞赛转向基础设施的系统性建设。











