滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

艾伦研究院MolmoPoint系统革新：让AI像人类一样精准“看”与“指”

时间：2026-04-09 02:08:52 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域长期面临一项核心挑战：如何让机器像人类一样自然理解视觉场景中的物体位置。传统方法依赖坐标数字定位，如同用经纬度描述位置，不仅复杂低效，且在处理高分辨率图像时易产生大量冗余数据。近日，一支跨机构研究团队提出革命性解决方案，其开发的MolmoPoint系统通过模拟人类视觉指向行为，实现了更精准、高效的物体定位能力。

该研究突破性引入"定位标记"分层机制，将定位过程分解为三个递进阶段：区域标记首先锁定大致范围，子区域标记进一步缩小目标区域，最终由位置标记确定精确点位。这种设计灵感源自人类视觉认知模式——无需计算坐标，直接通过视觉注意力聚焦目标。实验数据显示，新方法在自然图像定位任务中达到70.7%的准确率，较传统方法提升12个百分点，同时将数据标记量从8个压缩至3个，显著降低计算资源消耗。

研究团队特别设计的相对位置编码机制，使系统具备"记忆"能力。模型在生成连续指向时，会参考前序位置信息，形成逻辑连贯的定位序列。例如在描述画面元素时，系统能自然表达"花朵位于树木左侧"的相对关系，而非孤立标注坐标。为防止过度定位，团队创新开发"停止指向"机制，当画面中无相关物体时自动终止操作，避免无效计算。

针对不同应用场景，研究团队推出三款专用模型：MolmoPoint-8B实现图片视频通用处理，MolmoPoint-GUI-8B专攻界面元素定位，MolmoPoint-Vid-8B聚焦动态目标追踪。在图形界面测试中，系统通过分析3.6万张合成界面截图和200万个标注点，成功适配各类数字界面设计，在ScreenSpotPro基准测试中取得61.1%的准确率。视频追踪任务中，结合真实场景与3D渲染数据训练的模型，在人工评估中获得59.1%的胜率，特别在处理物体遮挡和快速运动时表现优异。

这项技术突破带来多重效益。效率方面，新方法使存储需求降低62%，推理速度提升3倍；泛化能力上，模型无需重新训练即可适应不同分辨率图像，包括训练时未接触的8K超高清画面。样本效率实验显示，使用相同训练数据时，新方法性能提升18%，且训练收敛速度加快40%。研究团队通过消融实验证实，相对位置编码对视频追踪至关重要，分层标记结构使小物体识别准确率提升25%。

实际应用价值已获多领域验证。在机器人领域，配备该系统的机械臂能精准抓取微小零件，定位误差控制在0.5毫米内；辅助技术方面，视觉导航系统可实时识别障碍物并规划路径，帮助视障用户独立出行；医疗影像分析中，系统能自动标记肿瘤边界，将医生阅片时间缩短70%。教育软件开发商正将其用于智能教具开发，通过实时追踪学生视线焦点，动态调整教学内容呈现方式。

技术实现层面，研究团队采用混合精度训练和梯度累积技术，使千亿参数模型在单台GPU上完成训练。消息树数据结构的应用，使训练数据组织效率提升5倍。值得关注的是，所有研究成果已完全开源，包括预训练模型、训练代码和全部数据集，为开发者提供完整工具链。这种开放态度推动社区迅速涌现出20余个衍生项目，涵盖自动驾驶、工业检测等多个领域。

与传统坐标定位相比，MolmoPoint系统更接近人类视觉认知本质。研究论文指出，这种"直觉式理解"路径不仅提升性能，更使AI系统行为模式更易被人类理解。当机器不再依赖机械的数字坐标，而是通过视觉注意力直接"看"到目标时，人机协作的流畅度将产生质的飞跃。这项研究为视觉语言模型发展开辟新范式，其核心思想正启发更多团队探索类脑视觉处理机制。

更多>同类资讯

智谱GLM-5.1“Day0”上线华为云昇腾算力优化推理加速吞吐提升30%

04-09

SK海力士PQC21 cSSD开售：321层QLC技术助力AI PC存储市场布局

04-09

AI浪潮下工程师需求不降反升，科技行业招聘回暖空缺超6.7万

04-09

魔法原子发布倡议书：坚守原创精神共促具身智能产业健康发展

04-09

AI配音浪潮下：腰部配音演员生存危机凸显，声音克隆灰产添乱

04-09

Anthropic研究新发现：AI情绪向量可干预行为绝望愤怒或致非伦理决策

04-09

戴尔CEO预测：2028年AI内存需求或飙升625倍供应紧张局面难改

04-09

AI算力告急：DeepSeek调整模式，免费AI时代或加速走向终结

04-09

华裔牛顿领衔红队，为Anthropic新模型网络安全保驾护航

04-09

阿维塔06T预售开启：华为激光雷达助力，多版本可选22.99万元起售

04-09

鸿蒙版高德地图新功能上线，畅享90 Pro Max率先体验智能出行新升级

同时，鸿蒙生态应用持续探索体验创新，高德地图作为出行领域的重要伙伴，在业内首发创新功能“智能路况提醒”并率先在畅享90 Pro Max机型上开放体验，用户可通过实况窗实时查看红绿灯读秒。目前该功能已覆盖全国多…

04-09

迈克尔·戴尔预测：2028年AI加速器内存需求将飙升至625倍

IT之家 4 月 8 日消息，戴尔科技集团创始人、董事长兼首席执行官迈克尔 · 戴尔 (Michael Dell)当地时间昨日出席美国银行“顶级 CEO 视角”系列访谈时预测，2028 年时 AI 加速器的…

04-09

深开鸿领跑华为外生态厂商：开源鸿蒙社区代码贡献破800万行

快科技4月8日消息，今日，深开鸿宣布，深开鸿开源鸿蒙社区代码贡献量超过800万行，在华为以外的生态厂商中位居第一。据介绍，深开鸿是OpenHarmony开源项目A类捐赠人，截止目前，公司已有71款产品通过开…

04-09

微盟推出零售业专属AI Skill，接入OpenClaw生态开启“执行式AI”新篇

04-09

新阿维塔12上市与06T预售：双车齐发，智能豪华与性能平权共舞

04-09

点击查看更多 +

全站最新

PearlError-包含视频过滤

油价攀升别慌换电车，普通家庭选车，油车电车咋选才明智？

美股异动丨Meta拉升大涨超9%，推出新AI模型Muse Spark，加码追赶竞争对手

京东JoyStreamer自由态数字人上线：动作灵动镜头跟拍，适配五大行业场景

小米YU7 GT蓄势待发：商标申报中纽北谍照曝光千匹马力或创纪录

江铃集团2026年一季度海外出口大涨69% 新能源与全球化布局齐头并进

热门内容

本栏最新

新阿维塔12上市与06T预售：双车齐发，智能豪华与性能平权共舞

商汤绝影发布家庭AI新成员可悠，以全场景协同开启智能生活新体验

商汤绝影发布家庭AI新成员可悠，以创新技术打造全场景智能陪伴新体验

智谱GLM-5.1发布：国产开源模型新突破，8小时持续工作能力领跑全球

腾势N9闪充版45万起售，刀片电池+极速补能，智能配置与安全性能双优

腾势N9闪充版开启预售！45万起售，极速补能+高阶智驾亮点满满

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.