当手机拍摄的多张照片被AI转化为三维空间模型时,这个看似智能的过程实则暗藏隐患——AI模型仅凭训练阶段积累的有限经验进行推测,在面对镜面反射、物体遮挡或复杂光照场景时,往往会产生几何形变、深度失准等隐蔽错误。香港理工大学团队提出的创新框架Free Geometry,通过让AI模型在推理阶段实现自我优化,成功突破了这一技术瓶颈。
传统三维重建模型采用"训练即冻结"模式,如同背熟教科书的考生面对新题型时束手无策。以VGGT和Depth Anything 3为代表的顶尖模型,在ETH3D数据集的镜面反射场景中,墙面倾斜误差可达5度以上,物体边缘的"毛刺"现象使重建精度下降37%。研究团队发现,当输入图片数量从4张增至8张时,相机位姿精度提升40%,三维点云F1分数提高28%,这揭示了多视角信息对模型判断的关键作用。
Free Geometry框架创造性地构建了"师生模型"机制:完整观察场景的"教师模型"提取高质量特征,部分观察的"学生模型"通过轻量级LoRA模块进行参数微调。在ETH3D数据集测试中,该框架使VGGT模型的相机位姿精度从0.157提升至0.178,三维重建F1分数从0.102增至0.110,特别在视角稀缺场景下提升幅度达5.33%。整个自适应过程仅需更新0.2%的模型参数,在单张专业显卡上2分钟内即可完成。
技术实现层面,研究团队设计了双重约束机制:帧内一致性损失确保可见视角特征对齐,跨帧关系损失通过构建特征空间三角形捕捉遮挡区域的几何关系。实验显示,混合选取相似与不相似的锚点特征效果最佳,LoRA模块的秩数设置为32时达到精度与效率的平衡。在ScanNet++数据集的复杂室内场景中,适应后的模型使深度估计误差减少23%,几何一致性提升41%。
该框架的突破性在于完全摆脱人工标注依赖,其自监督信号源于模型自身对多视角信息的自然处理。对比传统测试时自适应方法,Free Geometry在编码器特征层面操作,避免了输出层一致性约束可能导致的"劣币驱逐良币"现象。在7-Scenes数据集的动态光照测试中,模型对反光表面的重建准确率提升29%,对遮挡物体的深度预测误差降低35%。
跨视角泛化实验验证了框架的普适性:适应后的模型在4至100张输入图片范围内均保持精度提升,在HiRoom高分辨率数据集上,32视角下的相机位姿精度仍提升2.89%。消融研究显示,移除跨帧关系损失将导致F1分数下降11.4%,证实了几何关系约束对消除重建歧义的核心作用。目前研究团队已开源代码,为三维扫描、机器人导航等领域提供即插即用的解决方案。











