在北京亦庄举办的机器人马拉松赛事中,三百余台智能设备展开激烈角逐。这些参赛者既有依靠自主导航完成赛程的机型,也有通过远程操控参与竞赛的样机。相较于前代产品,本届参赛机器人的运动协调性显著提升,部分机型已能以接近人类的速度完成半程赛事。但技术观察者指出,当前机器人仍面临"有体无智"的困境,在复杂环境中的决策能力与人类存在明显差距。
行业专家将这种困境归因于数据获取的瓶颈。觅蜂科技首席执行官姚卯青在技术论坛上表示,具身智能的发展高度依赖三维空间数据的积累,其数据采集成本与复杂度远超语言模型所需的文本资料。据测算,当前最先进的人形机器人训练数据量不足50万小时,而实现智能涌现可能需要亿级小时的数据支撑,供需缺口达数百倍。
数据采集的特殊性加剧了供给难题。不同于语言模型可从互联网海量文本中自动抓取数据,机器人需要在实际场景中通过物理交互获取有效信息。极佳视界联合创始人朱政透露,该公司训练模型使用的数十万小时数据中,仅三成来自公开资源,其余均需自主采集。这些数据多在实验室或预设场景中获取,真实场景下的泛化能力仍有待提升。
数据质量参差不齐的问题同样突出。多家企业反映,外购数据普遍存在标注不规范、传感器同步误差等问题。某企业负责人形象地比喻:"当前数据市场充斥着'垃圾进、垃圾出'的现象,优质数据的稀缺性甚至超过芯片。"这种状况导致算法优化效果难以评估,企业往往无法区分模型缺陷与数据质量问题。
行业标准化缺失进一步制约了发展。各企业采用不同的数据格式与标注体系,形成难以互通的数据孤岛。某数据服务商测算,这种碎片化状态使产业协作成本增加40%以上。光轮智能首席执行官谢晨指出,缺乏统一的模型评价体系是核心障碍,企业难以确定何种数据组合能产生最佳训练效果。
面对真机数据采集每小时超200元的高昂成本,产业界开始探索替代方案。智元集团旗下觅蜂科技计划在2026年实现千万小时级数据产能,通过整合真机采集、仿真模拟与人类示范数据构建金字塔型数据体系。谢晨认为,仿真技术虽无法完全替代真实数据,但可将需求规模压缩至特斯拉自动驾驶系统的千分之一水平。
数据利用效率低下的问题同样亟待解决。极佳视界每年投入数千万购置GPU算力,但朱政坦言现有模型架构导致计算资源浪费严重。若将训练数据量扩大千倍,仅硬件成本就将突破企业承受极限。这种状况迫使行业同时推进数据扩增与模型优化两条技术路线。
在这场数据驱动的智能竞赛中,机器人企业正经历着特殊的"马拉松"。虽然部分机型已能在特定场景展现运动能力,但通往通用智能的道路仍充满挑战。正如赛事观察者所言,当机器人学会像人类一样在真实世界中自主学习时,真正的智能涌现时刻才会到来。









