具身智能领域迎来重大突破,全球首个完全基于真实工厂场景的人类中心数据集Egocentric-10K正式开源。该数据集包含10亿帧视频画面,由2153名工人在真实生产环境中累计工作一万小时采集而成,总视频片段达19.2万个,数据规模达16.4TB,是现有同类数据集EPIC-KITCHENS的100倍。
与传统家庭场景数据集不同,Egocentric-10K首次将数据采集场景扩展至工业制造领域。工人们佩戴头戴式摄像设备,在抓取、组装等操作过程中自然录制视频,设备可捕捉128°×67°视野范围、1080p分辨率、30帧/秒的高清画面。这种采集方式使数据集在手部可见性和操作密度指标上达到行业领先水平,为机器人学习精细操作提供了更接近真实工业环境的训练素材。
开源仅三天,该数据集在Hugging Face平台的下载量便突破1.3万次,迅速登顶趋势榜单。尽管当前版本仅包含RGB视频信息,暂未集成深度、音频、触觉等多模态数据,但项目团队透露正在研发专用记录设备。根据Build AI官网披露的计划,2026年将在深圳制造工厂量产数百万副智能眼镜,实现全球数据采集网络覆盖,届时可能补充更多模态信息。
针对数据实用性争议,项目团队回应称,虽然工业场景存在操作重复性较高的问题,但通过覆盖电子装配、精密加工等20余个细分领域,已确保数据具备足够多样性。关于人类操作经验向机器人迁移的难题,团队指出其核心优势在于数据采集成本低、扩展速度快,相比真机数据采集效率提升数十倍,这种规模化优势可能成为突破机器人学习瓶颈的关键。
这个引发行业关注的项目背后,站着一位年仅18岁的创业者Eddy Xu。这位哥伦比亚大学辍学生半年前放弃超2500万美元股权投资,创立Build AI公司专注构建可扩展的人类中心数据集。他的创业履历颇为亮眼:13岁在车库创办首家公司,曾开发国际象棋智能眼镜(虽因争议下架但获得技术关注),更推出AI流量预测工具CrowdTest——该产品通过模拟用户反应进行推文效果预测,上线5小时收入破万,24小时内总收入达3万美元,即使定价高达每月1000美元仍供不应求。
在商业竞赛领域,这位少年同样战绩斐然:曾斩获十项全能商业世界锦标赛冠军,在20万参赛者中脱颖而出;教育科技领域的创业项目更在三个月内积累17.8万用户后成功退出。其最新力作Egocentric-10K选择与特斯拉、它石智航等企业相同的技术路线,试图通过大规模第一视角人类操作数据,破解机器人灵巧操作难题。这场由少年发起的智能革命,正在重新定义机器人学习的数据边界。











