英伟达联合多伦多大学、向量研究所及德克萨斯大学奥斯汀分校的研究团队,共同推出了一项名为ViPE(视频姿势引擎)的前沿技术,为3D几何感知领域带来了突破性进展。该技术专注于从自然场景视频中高效提取精确的3D信息,解决了传统方法在复杂动态环境中的局限性。
ViPE的核心优势在于其强大的场景适应能力。无论是动态自拍视频、电影级镜头、行车记录仪画面,还是针孔、广角或360°全景相机拍摄的内容,该技术均能稳定处理。其应用场景覆盖自动驾驶、虚拟现实(VR)、增强现实(AR)等依赖空间感知的领域,为这些技术提供了高精度的相机参数、运动轨迹和深度图数据。
技术实现上,研究团队采用多重约束混合方法确保精度。通过在关键帧执行密集束调整,同步优化相机参数、姿态和深度图;结合DROID-SLAM网络的密集光流约束与cuvslam库的稀疏点约束,提升鲁棒性至亚像素级别;再利用单目度量深度网络解决尺度模糊问题,生成时间一致的高分辨率深度信息。这种多层次优化使ViPE在姿态估算和内在参数精度上显著超越MegaSAM、VGGT和MASt3R-SLAM等现有方案。
实测数据显示,ViPE在单个GPU上可实现每秒3至5帧的稳定运行,并生成尺度一致的轨迹。为支持学术界进一步探索,团队同步公开了包含约9600万帧标注数据的大规模数据集,覆盖多样化场景和相机类型。该数据集不仅为训练更强大的空间AI模型提供了基础,也推动了3D几何感知技术的标准化发展。