英伟达近日联合香港理工大学、南京大学等机构,共同推出了一款名为LocateAnything的新型视觉语言检测模型。该模型专注于实现高速、高精度的对象检测功能,能够从照片或屏幕截图中快速定位指定目标,并通过检测框明确标注其位置。
在机器人感知、计算机自动化操作等需要即时响应的场景中,LocateAnything展现出显著优势。传统模型往往在目标定位速度上存在瓶颈,而英伟达团队通过重新设计检测框预测机制,使该模型更适配交互式任务需求。例如,在服务机器人导航或智能体操作界面时,模型需在毫秒级时间内完成目标识别与定位。
技术层面,LocateAnything创新性地提出并行框解码策略,将边界框坐标(x1,y1,x2,y2)视为固定长度的原子单元,实现单步预测。这一设计大幅提升了推理效率,同时通过三种运行模式满足不同场景需求:Fast Mode针对端侧设备优化吞吐量,Slow Mode侧重离线标注与高精度评估,Hybrid Mode则作为默认选项,在常规输出中保持高速,仅在遇到格式异常或空间歧义时切换至自回归解码。
为支撑模型训练,研究团队构建了包含1200万独立图像、1.38亿语言查询及7.85亿边界框的LocateAnything-Data数据集。该数据集覆盖六大核心领域:通用物体检测、图形用户界面元素定位、指代表达理解、光学字符识别定位、文档版面分析以及点定位。这种多维度数据结构有效扩展了模型的泛化能力,使其能处理从日常物品到复杂文档布局的多样化任务。
性能测试显示,在单张NVIDIA H100 GPU环境下,Hybrid Mode模式下模型达到每秒12.7个检测框的输出速度,较Qwen3-VL的1.1 BPS和Rex-Omni的5.0 BPS均有显著提升。在高精度任务中,该模型在LVIS数据集IoU=0.95标准下取得31.1分,超越Rex-Omni的20.7分;在ScreenSpot-Pro界面元素定位任务中平均F1值达60.3,文档版面分析任务DocLayNet和M6Doc分别获得76.8与70.1的高分。











