人工智能领域长期面临一项核心挑战:如何让机器像人类一样自然理解视觉场景中的物体位置。传统方法依赖坐标数字定位,如同用经纬度描述位置,不仅复杂低效,且在处理高分辨率图像时易产生大量冗余数据。近日,一支跨机构研究团队提出革命性解决方案,其开发的MolmoPoint系统通过模拟人类视觉指向行为,实现了更精准、高效的物体定位能力。
该研究突破性引入"定位标记"分层机制,将定位过程分解为三个递进阶段:区域标记首先锁定大致范围,子区域标记进一步缩小目标区域,最终由位置标记确定精确点位。这种设计灵感源自人类视觉认知模式——无需计算坐标,直接通过视觉注意力聚焦目标。实验数据显示,新方法在自然图像定位任务中达到70.7%的准确率,较传统方法提升12个百分点,同时将数据标记量从8个压缩至3个,显著降低计算资源消耗。
研究团队特别设计的相对位置编码机制,使系统具备"记忆"能力。模型在生成连续指向时,会参考前序位置信息,形成逻辑连贯的定位序列。例如在描述画面元素时,系统能自然表达"花朵位于树木左侧"的相对关系,而非孤立标注坐标。为防止过度定位,团队创新开发"停止指向"机制,当画面中无相关物体时自动终止操作,避免无效计算。
针对不同应用场景,研究团队推出三款专用模型:MolmoPoint-8B实现图片视频通用处理,MolmoPoint-GUI-8B专攻界面元素定位,MolmoPoint-Vid-8B聚焦动态目标追踪。在图形界面测试中,系统通过分析3.6万张合成界面截图和200万个标注点,成功适配各类数字界面设计,在ScreenSpotPro基准测试中取得61.1%的准确率。视频追踪任务中,结合真实场景与3D渲染数据训练的模型,在人工评估中获得59.1%的胜率,特别在处理物体遮挡和快速运动时表现优异。
这项技术突破带来多重效益。效率方面,新方法使存储需求降低62%,推理速度提升3倍;泛化能力上,模型无需重新训练即可适应不同分辨率图像,包括训练时未接触的8K超高清画面。样本效率实验显示,使用相同训练数据时,新方法性能提升18%,且训练收敛速度加快40%。研究团队通过消融实验证实,相对位置编码对视频追踪至关重要,分层标记结构使小物体识别准确率提升25%。
实际应用价值已获多领域验证。在机器人领域,配备该系统的机械臂能精准抓取微小零件,定位误差控制在0.5毫米内;辅助技术方面,视觉导航系统可实时识别障碍物并规划路径,帮助视障用户独立出行;医疗影像分析中,系统能自动标记肿瘤边界,将医生阅片时间缩短70%。教育软件开发商正将其用于智能教具开发,通过实时追踪学生视线焦点,动态调整教学内容呈现方式。
技术实现层面,研究团队采用混合精度训练和梯度累积技术,使千亿参数模型在单台GPU上完成训练。消息树数据结构的应用,使训练数据组织效率提升5倍。值得关注的是,所有研究成果已完全开源,包括预训练模型、训练代码和全部数据集,为开发者提供完整工具链。这种开放态度推动社区迅速涌现出20余个衍生项目,涵盖自动驾驶、工业检测等多个领域。
与传统坐标定位相比,MolmoPoint系统更接近人类视觉认知本质。研究论文指出,这种"直觉式理解"路径不仅提升性能,更使AI系统行为模式更易被人类理解。当机器不再依赖机械的数字坐标,而是通过视觉注意力直接"看"到目标时,人机协作的流畅度将产生质的飞跃。这项研究为视觉语言模型发展开辟新范式,其核心思想正启发更多团队探索类脑视觉处理机制。











