ITBear旗下自媒体矩阵:

24岁00后博士生胡文博团队打造G²VLM,为AI添空间超能力新翼

   时间:2026-01-05 05:12:17 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

24岁的胡文博,这位年轻的00后博士生,带领团队研发出一款名为G²VLM的超级AI模型,引发了科技界的广泛关注。这款模型不仅具备从平面图片中精准重建三维世界的能力,还能进行复杂的空间思考和推理,堪称视觉语言领域的“空间小能手”。

与普通图像识别软件不同,G²VLM能够理解物体的位置、距离和相互关系。例如,它不仅能识别出照片中的椅子,还能判断椅子与桌子的距离、椅子的高度以及摆放方式。这种能力使得未来的机器人能够更灵活地执行任务,AR/VR游戏的世界更加真实,自动驾驶汽车也能更精准地判断距离和障碍物。

在SPAR-Bench测试中,G²VLM的总分超过了顶尖商业模型GPT-4o,位居榜首。在OmniSpatial、MindCube等多个空间推理测试基准中,它也取得了最优或极具竞争力的成绩。尽管G²VLM的模型尺寸仅为4B参数,远小于一些大型模型,但其在空间任务上的表现却轻松超越了这些“大块头”,证明了其双专家架构设计的高效性。

几何感知专家擅长从2D图片中解读3D几何信息,目标是弄清楚物体的深度、三维坐标和相机角度。语义感知专家则继承了现有AI模型的优点,擅长理解图片内容并用语言描述。两位专家通过共享的注意力机制紧密相连,实时交流信息,使得G²VLM同时具备了看懂内容和理解空间的能力。

为了培养这样一位“双料专家”,胡文博为G²VLM设计了一套独特的训练方案。在第一阶段,几何感知专家单独训练,使用带有精确三维标注的数据,练就一双“火眼金睛”,光看照片就能在脑中构建三维模型。在第二阶段,几何感知专家与语义感知专家一起训练,面对各种需要空间推理的问题,两位专家不断磨合,最终合体成为强大的G²VLM。

在三维重建测试中,G²VLM的表现与世界上最顶尖的专用三维重建模型不相上下,甚至在某些指标上更加出色。在空间推理测试中,它在包含深度比较、距离判断、物体相对关系、空间想象等难题的综合评测集上展现出了卓越的能力。

胡文博指出,G²VLM的首创性在于,它是首个在当前主流视觉语言模型架构中,原生地集成了从二维图片直接预测三维信息的能力。以往理解三维空间需要依赖难以大规模获取的额外标注信息,而G²VLM仅需任意角度拍摄的二维图片,就能预测出三维信息并用于空间理解,这使得模型更具实用性和可扩展性。

胡文博本科就读于美国加州大学圣地亚哥分校,曾跟随机器人学与具身智能领域专家苏昊进行研究,激发了他对3D和具身智能的浓厚兴趣。随后,他跟随计算机视觉专家屠卓文进入视觉语言模型领域,参与开发了早期开源VLM模型BLIVA。本科毕业后,胡文博在美国加州大学洛杉矶分校攻读硕士学位,继续专注于VLM与3D空间结合的研究方向,完成了一系列相关工作,相关论文发表在NeurIPS、ICLR等机器学习顶级会议上,并获得了CVPR Workshop最佳论文。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version