ITBear旗下自媒体矩阵:

英伟达携手高校推LocateAnything模型,AI检测对象实现高速高精度新突破

   时间:2026-05-31 20:02:49 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

英伟达联合香港理工大学、南京大学等科研机构,共同推出了一款名为LocateAnything的新型视觉语言检测模型。该模型专注于实现高速、高精度的对象检测,能够在照片或截图中快速定位指定对象,并通过检测框精确标注其位置。这一技术突破为机器人感知、电脑自动操作等需要实时定位的场景提供了强有力的支持。

传统视觉模型在处理即时交互任务时,往往面临速度与精度的平衡难题。LocateAnything通过重新设计检测框预测机制,将视觉语言检测的响应速度提升至新水平。其核心创新在于并行框解码技术,将边界框或点作为固定长度原子单元,仅需单步即可完成坐标预测,显著降低了计算延迟。

为满足不同场景需求,模型开发了三种运行模式:Fast Mode针对端侧机器人和具身智能设备优化,通过牺牲少量精度换取更高吞吐量;Slow Mode侧重离线标注和高精度评测任务,确保数据处理的绝对准确性;Hybrid Mode作为默认选项,在常规情况下快速输出结果,遇到格式异常或空间歧义时自动切换至自回归解码,实现效率与精度的动态平衡。

研究团队同步构建了包含1200万独立图像、1.38亿语言查询和7.85亿边界框的LocateAnything-Data数据集。该数据集覆盖通用检测、GUI元素定位、指代表达理解、OCR文字定位、版面分析和点定位六大领域,为模型训练提供了丰富的场景支持。通过这种多维度数据训练,模型展现出强大的泛化能力,能够适应不同领域的定位需求。

在性能测试中,LocateAnything展现出显著优势。基于单张NVIDIA H100 GPU的Hybrid Mode下,模型达到每秒12.7个检测框的处理速度,远超Qwen3-VL的1.1 BPS和Rex-Omni的5.0 BPS。在高精度任务中,模型在LVIS数据集IoU=0.95标准下取得31.1分,ScreenSpot-Pro平均F1值达60.3,DocLayNet和M6Doc分别获得76.8与70.1的优异成绩,各项指标均领先同类模型。

这项技术突破为实时交互系统提供了新的解决方案。在工业自动化领域,机器人可通过快速定位实现更精准的操作;在智能办公场景中,系统能够自动识别文档中的关键信息;在辅助技术方面,模型可帮助视障用户快速定位界面元素。随着技术不断完善,LocateAnything有望推动人机交互方式向更自然、高效的方向发展。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version