近日,专注于多模态具身智能数据采集与模型技术研发的枢途科技(深圳)有限公司宣布完成数千万元天使轮融资,本轮融资由东方富海与兼固资本联合领投。资金将主要用于视频具身数据采集管线的迭代升级,以及加速向多家头部具身智能企业交付商业化数据服务。
成立于2024年的枢途科技,致力于通过融合视觉、语言与环境交互系统,构建能够适应开放场景的通用具身数据平台。其核心技术聚焦于解决具身智能领域的关键瓶颈——训练数据的规模、质量与多样性不足问题,推动该技术在物流、制造与服务等领域的规模化应用。
当前,具身智能发展已进入应用阶段,但模型性能提升面临核心挑战。端到端模仿学习虽在结构化场景中表现良好,却依赖大量高质量演示数据,且存在因果混淆与泛化能力脆弱等问题,难以适应动态环境。而基于遥操控的数据采集方式则受限于硬件成本高、操作效率低、场景覆盖窄等现实约束,难以实现规模化生产。
与部分企业仅将视频数据处理后服务于自有模型不同,枢途科技自主研发的SynaData数据管线解决方案,实现了从互联网视频中提取多模态具身数据,并服务于第三方具身模型。该方案通过视频数据升维、跨域retargeting等技术突破,将海量RGB视频转化为多模态、高精度的训练数据,综合数据采集成本降至行业平均水平的千分之五。
以“拿取外卖袋”任务为例,SynaData系统能够从普通人手取袋的日常视频中,批量提取手部运动轨迹、物体移动路径、物体三维表面网格等多模态数据,并直接用于机器人抓取模型的训练。测试结果显示,基于该数据集训练的模型,对外卖袋的抓取成功率提升至88%,展现出极强的场景泛化能力。
目前,SynaData系统已完成全管线技术验证,累计处理数千小时覆盖室内外多种环境的视频内容,产出涵盖抓取、放置、精细组装等逾百种任务类型的标准化数据集。部分数据已在清华RDT、PI π0、智元UniVLA、EquiBot等主流开源视觉语言动作模型中得到应用。
针对视频数据在精度、泛化性与标准化方面仍存在的瓶颈,枢途科技正围绕三大方向推进系统升级。在精度维度上,通过动态遮挡建模与多视角重建技术,将轨迹与姿态重建精度从毫米级提升至2毫米以内,为精细操作任务提供数据支撑。泛化能力方面,计划将适配本体类型扩展至100种以上,覆盖人形机器人、灵巧手及各类移动底盘等全谱系硬件。
在生态构建层面,枢途科技预计于2025年第四季度推出业界首个基于真实场景视频的开源具身数据集。该数据集旨在打通数据生产-仿真训练-系统部署的全链路,与头部仿真环境伙伴共同构建下一代具身智能数据基础设施。
枢途科技CTO林啸表示,数据决定上限,模型逼近上限。SynaData将解锁互联网上海量视频的“数据富矿”,帮助具身机器人从“手把手教学”走向“观看教学”,高效获取物理世界的交互数据,突破能力上限,为机器人进入千行百业提供核心数据支撑。