蚂蚁集团旗下具身智能公司灵波科技近日宣布开源其高精度空间感知模型LingBot-Depth,这一进展为机器人与自动驾驶领域带来新的技术突破。该模型基于奥比中光Gemini 330系列双目3D相机的原始数据开发,通过提升环境深度感知与三维空间理解能力,使智能终端能够更精准地"看懂"三维世界,有效解决了传统深度相机在复杂场景下的性能瓶颈。
在权威基准测试中,LingBot-Depth展现出显著优势。对比主流模型PromptDA与PriorDA,该模型在室内场景的相对误差(REL)降低超70%,在稀疏SfM任务中的RMSE误差下降约47%,刷新了行业精度记录。这一突破得益于其独特的"掩码深度建模"技术,该技术通过融合RGB图像的纹理、轮廓及环境上下文信息,能够智能补全深度数据缺失区域,生成边缘更清晰的三维深度图。
针对透明玻璃、高反光镜面等传统深度相机的感知难题,LingBot-Depth通过奥比中光深度视觉实验室验证,在复杂光学场景下仍能输出平滑完整的深度图。实验数据显示,搭载该模型的Gemini 330系列在透明及反光场景中的表现明显优于Stereolabs的ZED深度相机,物体轮廓边缘锐利度提升显著,且无需升级传感器硬件即可实现性能跃升。
支撑模型性能的核心是灵波科技构建的庞大真实场景数据集。研发团队采集近千万份原始样本,筛选出200万组高价值深度配对数据用于训练,其中包含200万真实世界数据和100万仿真数据。这套核心数据资产将随模型同步开源,为行业攻克复杂场景空间感知难题提供关键资源。目前,灵波科技已与奥比中光达成战略合作,双方计划基于该模型联合开发新一代深度相机产品。
据悉,灵波科技将于近期陆续开源多款具身智能方向模型,持续推动空间智能技术的开源生态建设。此次LingBot-Depth的开源不仅为学术界提供研究基础,也为工业界降低三维视觉技术应用门槛,加速智能终端在家庭、物流、制造等场景的落地进程。











