在计算机视觉领域,机器如何像人类一样实时感知并重建三维空间,一直是无人驾驶、增强现实和机器人导航等应用的核心难题。蚂蚁集团旗下研究团队提出的新系统LingBot-Map,通过模仿人类空间记忆机制,在流式三维重建任务中实现了突破性进展。该系统以每秒20帧的实时速度处理千帧级长视频,在多个公开基准测试中超越传统离线优化方法,相关成果已预印本形式发布于arXiv平台。
传统方案面临双重困境:单目摄像头获取的二维图像缺乏绝对距离信息,而实时处理要求系统必须边接收数据边计算位置。随着视频长度增加,微小误差会像滚雪球般累积,导致重建的地图逐渐"漂移";若保存所有历史帧的完整信息,内存消耗又将呈线性爆炸式增长。研究团队从人类认知模式中汲取灵感,将空间记忆分解为三个层级:固定起点的锚定坐标系、记录近期轨迹的局部窗口、压缩历史路径的全局摘要。
系统核心的几何上下文注意力机制(GCA)通过三层记忆架构实现高效计算。初始帧被设定为锚点,建立坐标系和比例尺基准;最近16-64帧构成局部窗口,提供密集的几何比对线索;历史帧则被压缩为仅含6个参数的"摘要令牌",记录摄像机位姿的核心信息。这种设计使每新增一帧仅增加6个计算单元,相比传统方法需要处理500个完整图像令牌,内存占用降低近80倍。研究团队特别引入视频时序位置编码技术,为历史摘要添加时间标记,确保系统能感知帧间先后顺序。
训练阶段采用独特的两阶段策略:基础模型先在29个数据集的短序列上预训练几何推理能力,消耗2.15万GPU小时;流式模型再通过渐进式视图课程学习长序列处理,从24帧逐步扩展至320帧,配合相对位姿损失函数强化局部一致性。针对数据多样性问题,团队开发了折返视频采样器,通过随机步长和折返策略生成自然变化的训练片段,并整合Habitat-Sim仿真环境生成跨房间导航数据,使模型能应对剧烈场景切换。
在牛津尖塔数据集的3840帧超长序列测试中,LingBot-Map的绝对轨迹误差(ATE)仅7.11米,而同类最佳流式方法达到32.47米,甚至超越需要全局优化的离线系统。ETH3D数据集上的点云重建F1分数达98.98%,较次优方法提升22个百分点。可视化结果显示,其他方法因轨迹漂移导致建筑边缘出现重影,而该系统生成的点云轮廓清晰、墙面连续。
系统支持直接输出和视觉里程计两种推理模式。前者适用于3000帧以内的常规场景,后者通过局部窗口拼接处理城市级长视频,虽牺牲少量精度但实现内存恒定。关键帧选择机制根据光流变化动态保留信息,配合分页KV缓存技术将推理速度提升至每秒20帧。实验表明,固定局部窗口比完整因果注意力内存下降2.7倍,轨迹精度反而更高,证明针对性保留关键信息比堆砌数据更有效。
这项研究为实时三维重建提供了新范式。相比依赖激光雷达的高成本方案,LingBot-Map仅需普通摄像头即可工作,显著降低自动驾驶、增强现实等领域的部署门槛。目前系统尚未实现主动闭环检测,在极端长序列中可能丢失细节。研究团队计划将闭环机制融入注意力计算,并探索动态场景处理和多传感器融合方向,相关代码和演示资源已公开于GitHub仓库。











