ITBear旗下自媒体矩阵:

GAIR 2025聚焦具身智能:数据瓶颈与AIRSPEED平台破局之路

   时间:2025-12-19 09:55:16 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在近期落幕的一场全球人工智能与机器人领域的重要会议上,具身智能成为行业关注的焦点。这一连接虚拟模型与物理世界的关键赛道,正吸引着众多企业和科研力量投身其中。深圳极数迭代科技创始人佟显乔博士在会上围绕具身智能数据领域进行了深度分享,为行业发展提供了新的思路。

当前,语言大模型凭借海量数据实现了爆发式增长,而具身智能与机器人领域却面临着数据供给的巨大缺口。现有的数据集规模仅在数千至十几万小时,与语言模型的海量数据储备差距明显。数据作为具身智能发展的核心基石,其稀缺性、高成本与碎片化问题,严重制约了机器人泛化能力的提升。佟显乔博士认为,尽管目前具身数据量较少,但无论未来具身模型如何发展、本体怎样迭代,数据始终是基石,未来几年数据体量将大幅增长,具身数据服务有望成为机器人领域确定性的数据服务机会。

具身智能的数据瓶颈主要体现在三个方面。从泛化能力来看,类比 Scaling Law,目前机器人的泛化能力远不足,模仿学习需适配不同本体、数据和场景,但现有的数据采集和空间泛化能力严重不足。研究表明,泛化能力与数据数量呈幂律关系,现有数据量难以让机器人达到较好的任务成功率,且在机器人领域 Scaling Law 依然存在,更多数据大概率能带来更好效果,所以解决数据需求瓶颈迫在眉睫。从技术路线角度,无论是“小脑加大脑”的分层路线,还是端到端的数据路线,对具身数据的需求都十分庞大。“大脑”负责理解物理世界常识和人类指令、拆分复杂任务;“小脑”或技能层面涉及抓取、按压等动作,需要人类示教数据和机器人感知数据,且要覆盖不同场景,很多数据还需人类标注;端到端训练是大脑与小脑的整合,不同流派方法不同,但都需要不同数据、人的参与以及不同场景和任务的泛化。从定性分析,满足需求需大脑和小脑数据乘以不同机器人类别,而跨本体数据复用难,放大人类标注演示或做更多泛化任务场景,成本都很高。因此,成本飞涨、模型跨本体能力弱导致数据孤岛且标准难统一、难以评估数据实际能力,成为具身智能数据面临的主要瓶颈。

具身智能数据本身是一项工程化工作,涵盖从底层采集设计、数据标准确立,到真实环境和仿真环境下的采集部署等一系列环节。目前数据集种类多样,包括操作类、移动类、逻辑语义类、导航类等,但各做各的,尚未出现能将所有数据联系起来的通用模型。在数据采集方面,真机采集方式众多,如遥操、示教、用末端执行器动捕人类视觉数据学习、遥操同构的遥操视学光冠操作等,不同方式在不同维度各有优劣,不同团队和公司都在探索。仿真数据在轨迹合成、姿态合成、预测生成、决策生成等方面也有不同探索,部分团队认为仿真数据可能比真机数据效果更好。

针对这些问题,目前没有通用解法。需针对不同场景做系统设计,在高效性和可靠性间找到平衡,确立数据标准,降低真机、真实世界和仿真数据成本,提升效率,优化不同机器人和场景的部署。对于数据孤岛问题,由于不同数据在有效性和通用性上存在差异,如遥操固定真机数据质量高但通用性差,人类视频数据量大但训练模型效果差,目前的解决方案是应收尽收。

深圳极数迭代科技有限公司与深圳市人工智能与机器人研究院合作,推出了具身智能数据平台 AIRSPEED。该平台致力于兼容不同机器人本体和遥操设备,通过不同的机器人接口、遥操接口、仿真接口,实现真机、仿真以及不同机器人之间的良好兼容性,凭借高软硬件和技术兼容性实现生产柔性化,高效生产数据。平台架构尽量减少用户编程需求,用户配置好接口后,通过一个接口就能实现全流程顺畅的数据生产,旨在成为第三方平台,减少客户适配不同机器人和数据的复杂工作。

该平台不仅是一个技术解决方案,更是一个管理解决方案平台。当数据达到一定规模后,需要管理大规模采集员、标注员,进行任务调度、数据处理和标注等系统工程,这些都能通过平台高效管理。平台针对真机数据提出“万物皆可达”,适配不同采集方案,从遥操到示教类,分三个阶段兼容,提供统一接口;针对仿真数据提出“万物皆可生”,从轨迹合成、资产合成、决策生成和预测生成四个维度,统一管理不同仿真平台和资产。平台引入 AI Agent 概念,减轻任务管理员等工作负担,加入大模型用于自动标注、自动资源管理和训练模型评测,旨在打造具身智能数据工具链,助力高效训练模型和快速部署。

目前,该平台在真机和仿真方面都具备了快速迭代模型的能力,在真实世界数据集构建上实现了 30 多倍加速,在仿真方面有 3.5 倍加速,期望以飞轮效应不断提升模型迭代效率。其数据管理平台以数据集交付为中心,分开管理任务、设备、标注、用户,不同客户可直接在平台上进行任务管理和生成,支持多种遥操作、动捕和 UMI 等设备接入,实现统一数据管理。目前,平台已与遥操设备合作伙伴、数据采集盒子供应商以及不同机器人厂商开展合作。公司专注于机器人数据、具身数据探索,以 AIRSPEED 平台为核心产品提高数据效率,还著有相关书籍《具身智能数据工程》。用户使用平台时,可以数据集为中心建立不同数据集,选择本体和遥操设备,批量建立任务后发给采集员采集数据,采集完上传平台由标注员标注,审核员审核后导出标准数据集用于训练模型,平台支持多种机器人和遥操设备,也支持在仿真环境进行遥操和数据采集。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version