滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

新加坡国立大学新成果：GeoSR助力AI突破空间理解瓶颈

时间：2026-04-09 02:10:35 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，视觉语言模型虽能精准识别图像内容并生成自然语言描述，却始终难以攻克空间推理难题。当被问及"两个物体的距离"或"视频中物体的运动方向"时，这类系统往往给出错误答案，暴露出空间认知能力的严重缺陷。新加坡国立大学团队近期提出的创新解决方案，为破解这一困局开辟了新路径。

研究团队发现，传统方法向AI直接灌输几何信息的效果堪比"对牛弹琴"。实验数据显示，即便为模型提供精确的3D坐标数据，其在空间推理任务中的准确率提升不足1%，部分场景下甚至出现性能下降。这种反常现象源于AI的"视觉捷径"倾向——模型更依赖颜色、纹理等直观特征进行判断，就像人类闭着眼睛走路般拒绝使用导航工具。

针对这一顽疾，研究人员设计了名为GeoSR的双轨训练框架。其核心机制包含两个创新模块：在训练阶段，系统会随机遮挡图像关键区域，迫使模型通过几何信息补全视觉缺失，这种"视觉蒙眼"策略使模型在动态场景中的方向判断准确率提升11.6个百分点；在推理阶段，动态权重分配机制根据任务需求自动调节几何信息与视觉特征的融合比例，确保模型在复杂场景中保持最优决策模式。

在包含5000个测试样本的VSI-Bench基准测试中，GeoSR展现出显著优势。物体计数任务准确率达68.3%，较传统方法提升0.4%；在更具挑战性的动态推理测试集DSR-Bench上，综合准确率从58.9%跃升至66.1%，其中绝对方向判断子任务准确率提升达10.6个百分点。这些数据印证了强制使用几何信息的有效性——当模型无法依赖视觉线索时，其空间推理能力得到实质性突破。

技术实现层面，该框架保持了极高的计算效率。模型参数量仅增加0.7%，单次推理耗时延长0.01秒，这种轻量化设计使其可直接部署于现有硬件环境。研究人员通过3000余次超参数实验确定，当80%图像区域被遮挡且遮挡启用概率为50%时，系统能达到最佳平衡点——既保证训练压力又维持稳定性。

定性分析揭示了更有趣的发现：在汽车运动方向判断任务中，传统模型因过度关注车头朝向而误判，GeoSR则通过分析车轮轨迹与背景参照物得出正确结论。这种突破源于训练阶段的特殊设计——系统会智能识别与几何推理最相关的图像区域进行针对性遮挡，迫使模型建立真正的空间认知能力。

当前研究仍面临数据质量瓶颈。现有测试集存在标注歧义问题，部分场景的几何标注误差超过5%，这直接限制了模型性能的进一步提升。研究团队建议构建更高精度的几何感知数据集，通过三维扫描技术获取毫米级标注，同时建立统一的评估标准以消除主观判断差异。

该成果在自动驾驶领域具有直接应用价值。测试显示，装备GeoSR的车辆在复杂路况下的障碍物距离估算误差减少37%，变道决策时间缩短22%。在机器人导航场景中，改进后的系统能更准确识别动态障碍物运动轨迹，路径规划成功率提升19个百分点。这些突破为智能系统理解三维世界奠定了技术基础。

从方法论视角观察，GeoSR颠覆了传统多模态学习的"信息堆砌"范式。其核心启示在于：信息整合的质量远比数量重要，通过设计对抗性训练场景激发模型潜能，比简单增加数据维度更有效。这种训练策略可迁移至其他认知领域，为开发通用人工智能提供新思路。

技术细节方面，几何释放遮挡模块采用动态注意力机制，能根据任务复杂度自动调整遮挡区域大小；几何引导融合模块则引入可微分的空间关系编码器，实现特征融合比例的实时优化。这些创新使模型在保持视觉理解优势的同时，获得真正的空间推理能力。

该研究已引发产业界广泛关注。多家自动驾驶企业正在测试GeoSR的商用版本，机器人制造商则探索将其应用于仓储物流场景。学术界认为，这项工作标志着AI空间认知研究进入新阶段，其提出的"强制学习"范式可能催生更多突破性成果。完整技术方案详见arXiv预印本平台论文。

更多>同类资讯

中科院FlowPIE框架：AI科学创意生成新范式，开启创新孵化新纪元

04-09

艾伦研究院MolmoPoint系统革新：让AI像人类一样精准“看”与“指”

04-09

智谱GLM-5.1“Day0”上线华为云昇腾算力优化推理加速吞吐提升30%

04-09

SK海力士PQC21 cSSD开售：321层QLC技术助力AI PC存储市场布局

04-09

AI浪潮下工程师需求不降反升，科技行业招聘回暖空缺超6.7万

04-09

魔法原子发布倡议书：坚守原创精神共促具身智能产业健康发展

04-09

AI配音浪潮下：腰部配音演员生存危机凸显，声音克隆灰产添乱

04-09

Anthropic研究新发现：AI情绪向量可干预行为绝望愤怒或致非伦理决策

04-09

戴尔CEO预测：2028年AI内存需求或飙升625倍供应紧张局面难改

04-09

AI算力告急：DeepSeek调整模式，免费AI时代或加速走向终结

04-09

华裔牛顿领衔红队，为Anthropic新模型网络安全保驾护航

04-09

阿维塔06T预售开启：华为激光雷达助力，多版本可选22.99万元起售

04-09

鸿蒙版高德地图新功能上线，畅享90 Pro Max率先体验智能出行新升级

同时，鸿蒙生态应用持续探索体验创新，高德地图作为出行领域的重要伙伴，在业内首发创新功能“智能路况提醒”并率先在畅享90 Pro Max机型上开放体验，用户可通过实况窗实时查看红绿灯读秒。目前该功能已覆盖全国多…

04-09

迈克尔·戴尔预测：2028年AI加速器内存需求将飙升至625倍

IT之家 4 月 8 日消息，戴尔科技集团创始人、董事长兼首席执行官迈克尔 · 戴尔 (Michael Dell)当地时间昨日出席美国银行“顶级 CEO 视角”系列访谈时预测，2028 年时 AI 加速器的…

04-09

深开鸿领跑华为外生态厂商：开源鸿蒙社区代码贡献破800万行

快科技4月8日消息，今日，深开鸿宣布，深开鸿开源鸿蒙社区代码贡献量超过800万行，在华为以外的生态厂商中位居第一。据介绍，深开鸿是OpenHarmony开源项目A类捐赠人，截止目前，公司已有71款产品通过开…

04-09

点击查看更多 +

全站最新

PearlError-包含视频过滤

油价攀升别慌换电车，普通家庭选车，油车电车咋选才明智？

美股异动丨Meta拉升大涨超9%，推出新AI模型Muse Spark，加码追赶竞争对手

京东JoyStreamer自由态数字人上线：动作灵动镜头跟拍，适配五大行业场景

小米YU7 GT蓄势待发：商标申报中纽北谍照曝光千匹马力或创纪录

江铃集团2026年一季度海外出口大涨69% 新能源与全球化布局齐头并进

热门内容

本栏最新

新阿维塔12上市与06T预售：双车齐发，智能豪华与性能平权共舞

商汤绝影发布家庭AI新成员可悠，以全场景协同开启智能生活新体验

商汤绝影发布家庭AI新成员可悠，以创新技术打造全场景智能陪伴新体验

智谱GLM-5.1发布：国产开源模型新突破，8小时持续工作能力领跑全球

腾势N9闪充版45万起售，刀片电池+极速补能，智能配置与安全性能双优

腾势N9闪充版开启预售！45万起售，极速补能+高阶智驾亮点满满

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.