滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

香港中文大学等联合研究：让AI视觉系统学会“查资料再看图”新路径

时间：2026-05-19 00:05:23 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当朋友发来一张聚会照片，让你找出“今年奥斯卡最佳女配角得主”时，若你并不知晓获奖者姓名，只能先通过搜索引擎确认身份，再返回照片中寻找目标。这一对人类而言再自然不过的跨模态推理过程，却长期困扰着人工智能视觉系统——现有模型往往只能“看图识物”，缺乏主动检索背景知识辅助识别的能力。深圳循环区研究院联合武汉大学与香港中文大学多媒体实验室，通过构建全新数据集与算法框架，首次将“先查资料再看图”的认知模式引入计算机视觉领域。

研究团队将这种需要结合外部知识库与视觉感知的任务定义为“感知深度研究”。传统视觉模型分为两类：一类通过视觉特征直接定位目标，另一类依赖训练数据中的常识进行推理，但两者均假设目标身份可通过图像本身或既有知识推导。当问题涉及最新新闻事件、冷门实体关系等动态知识时，现有模型便会集体失效。例如面对“找出发布时附赠赛车游戏捆绑套装，且该游戏主角曾用名Jumpman的设备”这类问题时，模型需通过1981年游戏《大金刚》主角马里奥的改名史，逐步推导出目标为任天堂Switch 2，这显然超出单纯视觉分析的范畴。

为量化评估这种跨模态推理能力，研究团队开发了WebEyes数据集。该数据集包含120张复杂场景图片，标注了473个目标物体实例，生成645组问答对，最终形成1927道测试题。题目覆盖知名人物、标志性IP、流行文化、动漫角色、商品及车辆六大类别，其中动漫角色与IP形象占比超40%，这类目标往往需要特定背景知识才能区分。测试题型分为三类：目标定位要求输出精确矩形框坐标；目标分割需生成像素级轮廓蒙版；视觉问答则需从选项中选出包含正确知识描述的答案。所有题目均通过三轮链式搜索生成间接线索，刻意隐藏目标名称与视觉特征，并设置三重过滤机制剔除可通过常识或单纯视觉解答的题目，最终保留的样本均具备完整证据链追溯。

针对该任务，研究团队提出Pixel-Searcher两阶段解决方案。第一阶段模拟人类推理过程，将复杂问题拆解为具有逻辑依赖关系的子问题，通过多轮搜索-推理循环构建目标假设。该假设包含目标名称、视觉类别及可验证线索三要素，例如将“奥斯卡最佳女配角”问题转化为“查找2026年奥斯卡获奖名单→确认女配角得主→匹配照片中人物特征”。系统会主动验证假设合理性，排除中间推理步骤或与视觉场景矛盾的结论。第二阶段利用目标假设指导视觉定位，通过生成候选区域并依据关键线索打分筛选，最终输出精确坐标或分割蒙版。对于视觉问答任务，则反向验证选项知识描述与标注区域的匹配度。

实验数据显示，在目标定位任务中，Pixel-Searcher将基础模型Qwen3-VL-8B的IoU指标从26.81提升至34.17，Recall@0.5从32.61提升至41.30，动漫角色与IP形象类别的提升尤为显著。目标分割任务中，gIoU与cIoU指标分别提升3.39与6.47个百分点，车辆类别的分割精度进步明显。视觉问答准确率提高6.1个百分点，商品类题目改善突出。尽管如此，开源方案与闭源商业模型仍存在差距，Doubao-Seed-2.0-Pro在目标分割任务中达到61.22 gIoU，显示该领域仍有较大提升空间。

失败案例分析揭示，78%的错误源于搜索过程或实体解析失误，如获取错误证据或混淆中间推理步骤；19%的错误发生在视觉定位阶段，即便正确解析目标身份仍可能选错区域；仅3%的错误与像素蒙版生成相关。这表明当前模型的核心瓶颈在于跨模态信息整合能力，而非单纯的视觉处理精度。研究团队通过消融实验证实，候选区域生成与多重验证机制是提升性能的关键，单独移除任一环节均会导致指标大幅下降。

该研究通过定义新任务、构建专用数据集及提出解决方案，为计算机视觉领域开辟了跨模态推理的新方向。传统视觉模型如同“只读图不查字典的学生”，而WebEyes与Pixel-Searcher的探索表明，当视觉感知与主动信息检索相结合时，人工智能方能应对真实世界中需要动态知识辅助的复杂场景。完整技术细节可查阅arXiv平台论文编号2605.12497。

更多>同类资讯

大模型“马嘉祺”翻车背后：学术先驱一年前已布局，产业未掘金矿待启

05-29

DeepSeek月耗17万亿Tokens背后：国产AI算力迎Agent时代关键大考

05-29

AI智能体落地：75%企业试水仅15%成功，关键分水岭与破局之道何在

长期（1-3 年）AI智能体将从"效率工具"升级为"组织核心"。战神数科服务推荐方案：企业数字化转型全案（含场景诊断 →流程拆解 → 智能体搭建 → 效果闭环四步法）预期效果：获客成本降低 40%，内容…

05-29

68亿电网大单启幕：电力机器人千亿市场，哪些企业将领跑？

三类机器人的配置绝非随机，背后是一条清晰的技术难度递进链：四足机器狗解决的是“看得见”的问题——高频巡检、红外测温、隐患预警；双臂巡检机器人在此基础上增加了“动得起来”的能力——完成变电站设备分合闸、小车摇…

05-29

2027北京国际人工智能与机器人展会扩容升级助力京津冀智能产业腾飞

本届展会在往届成熟办展基础上全面扩容升级，展览面积、参展企业、产业链覆盖度、专业观众规模实现全方位提升，持续依托京津冀“北京研发、天津制造、河北场景”的独特产业协同格局，打造北方地区规模最大、专业性最强、产业…

05-29

Anthropic推Claude Opus 4.8：性能跃升融资创新高，但“诚实”引争议

Bun创始人JarredSumner用该功能将75万行代码从Zig移植到Rust，11天完成，99.8%测试通过。Mollick还展示了一个更夸张的案例：Opus 4.8从零构建了一款完整的角色扮演游戏，生…

05-29

COMPUTEX 2026前瞻：高通安蒙将演讲，智能体AI引领全域智能新未来

第五代骁龙 8 至尊版移动平台作为旗舰手机的核心算力底座，目前已搭载于三星 Galaxy S26系列、荣耀 Magic V6以及首款机器人手机Robot Phone 等多款产品，能够在本地运行复杂的跨应用任…

05-29

科技助力“夕阳红”：陶然亭街道外骨骼机器人让老人行走更稳健

近日，西城区陶然亭街道养老服务中心引进了4台外骨骼机器人，涵盖医用级与便携式两大类型，为半失能和行动不便的老人带来了行走的新可能，也让老人“稳稳走路、轻松上下楼”的愿望不再遥远。陈琪说，设备可根据老人身体状况…

05-29

三星五月资讯速递：车展显科技实力，SID周展显示新篇

05-29

奥迪E7X上市：以“全系高配”重塑豪华纯电SUV市场新格局

05-29

Asana宣布以7500万美元收购无代码AI智能代理构建器StackAI

05-29

砸下 7500 万美元！Asana收购StackAI，全力打造“人机协作操作系统”

05-29

日本基础设施企业 Datasection 携手 OpenAI

05-29

大模型赛道春风吹拂！港股概念股集体爆发，智谱暴涨超17%

05-29

未雨绸缪！Mistral AI 首席执行官称研发自研芯片是迟早的事

05-29

点击查看更多 +

全站最新

福特烈马亚马逊限量版上市：原厂涉水925mm，合法合规玩水无需再改装

聚焦运营痛点 B级纯电BEIJING EU8上市续航长服务优成营运新选择

上汽奥迪E7X来袭：传统豪华邂逅本土智能，30万级市场新抉择

蔚来携三品牌11款车型及12项技术亮相大湾区车展开启科技新境

奥迪E7X上市：以“全系高配”重塑豪华纯电SUV市场新格局

亚马逊关停内部AI排行榜"Kirorank" 纠偏形式化倾向回归实用导向

热门内容

本栏最新

奥迪E7X上市：以“全系高配”重塑豪华纯电SUV市场新格局

2026华为云创想者大会将启微赞直播共探AI+直播营销新未来

Rivian软件负责人：AI时代下，CarPlay整合讨论已不合时宜

比亚迪“敢为”引领智能化新篇：安全兜底开启全民城市领航新纪元

Rivian软件负责人：AI引领车机变革，整合CarPlay已非当下所需

理想汽车新动向：L9 Livis大定破万，6月发布L8，出海战略稳步推进

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.