AIPress.com.cn报道
今天,蚂蚁集团旗下灵波科技正式开源空间感知模型LingBot-Depth。
这是一个面向具身智能场景的深度补全模型,主要解决的问题是:传统深度相机在遇到透明物体、玻璃表面、高反光材质时,往往无法获取有效的深度信息,导致机器人在这些场景下抓取失败或发生碰撞。
LingBot-Depth的技术路线是用软件补硬件的短板。模型基于奥比中光Gemini 330系列双目3D相机采集的RGB-Depth数据进行训练,核心方法叫做"掩码深度建模"。简单说就是在训练过程中故意遮挡一部分深度数据,让模型学会根据RGB图像推断缺失的深度值。训练完成后,当深度相机传回的数据有缺失或噪声时,模型可以结合彩色图像的纹理、轮廓等信息进行补全。
官方数据显示,在NYUv2、ETH3D等多个基准测试中,LingBot-Depth在深度补全、单目深度估计和双目匹配任务上达到当前最优水平。在透明物体抓取的实际测试中,机器人对透明储物盒的抓握成功率达到50%,突破了传统传感器难以处理的技术瓶颈。
另一个亮点是模型的时间一致性。在处理视频输入时,无需显式的时序建模就能生成稳定连贯的深度序列,避免了闪烁和结构跳变问题。
在硬件适配方面,LingBot-Depth搭载在奥比中光Gemini 330系列相机上测试,官方称效果优于业内Stereolabs的ZED深度相机。这意味着不用更换更贵的传感器,就能提升消费级深度相机对高难场景的处理能力。
目前模型、代码和技术报告已全部开源,后续还将开源300万对标注数据,包括200万对实拍RGB-D样本和100万对渲染样本。灵波科技与奥比中光已达成战略合作,计划推出基于该模型的新一代深度相机。团队表示,这是他们在空间智能领域的第一步,本周还将陆续发布更多具身智能方向的成果。











