ITBear旗下自媒体矩阵:

香港中文大学等联合研究:让AI视觉系统学会“查资料再看图”新路径

   时间:2026-05-19 00:05:23 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当朋友发来一张聚会照片,让你找出“今年奥斯卡最佳女配角得主”时,若你并不知晓获奖者姓名,只能先通过搜索引擎确认身份,再返回照片中寻找目标。这一对人类而言再自然不过的跨模态推理过程,却长期困扰着人工智能视觉系统——现有模型往往只能“看图识物”,缺乏主动检索背景知识辅助识别的能力。深圳循环区研究院联合武汉大学与香港中文大学多媒体实验室,通过构建全新数据集与算法框架,首次将“先查资料再看图”的认知模式引入计算机视觉领域。

研究团队将这种需要结合外部知识库与视觉感知的任务定义为“感知深度研究”。传统视觉模型分为两类:一类通过视觉特征直接定位目标,另一类依赖训练数据中的常识进行推理,但两者均假设目标身份可通过图像本身或既有知识推导。当问题涉及最新新闻事件、冷门实体关系等动态知识时,现有模型便会集体失效。例如面对“找出发布时附赠赛车游戏捆绑套装,且该游戏主角曾用名Jumpman的设备”这类问题时,模型需通过1981年游戏《大金刚》主角马里奥的改名史,逐步推导出目标为任天堂Switch 2,这显然超出单纯视觉分析的范畴。

为量化评估这种跨模态推理能力,研究团队开发了WebEyes数据集。该数据集包含120张复杂场景图片,标注了473个目标物体实例,生成645组问答对,最终形成1927道测试题。题目覆盖知名人物、标志性IP、流行文化、动漫角色、商品及车辆六大类别,其中动漫角色与IP形象占比超40%,这类目标往往需要特定背景知识才能区分。测试题型分为三类:目标定位要求输出精确矩形框坐标;目标分割需生成像素级轮廓蒙版;视觉问答则需从选项中选出包含正确知识描述的答案。所有题目均通过三轮链式搜索生成间接线索,刻意隐藏目标名称与视觉特征,并设置三重过滤机制剔除可通过常识或单纯视觉解答的题目,最终保留的样本均具备完整证据链追溯。

针对该任务,研究团队提出Pixel-Searcher两阶段解决方案。第一阶段模拟人类推理过程,将复杂问题拆解为具有逻辑依赖关系的子问题,通过多轮搜索-推理循环构建目标假设。该假设包含目标名称、视觉类别及可验证线索三要素,例如将“奥斯卡最佳女配角”问题转化为“查找2026年奥斯卡获奖名单→确认女配角得主→匹配照片中人物特征”。系统会主动验证假设合理性,排除中间推理步骤或与视觉场景矛盾的结论。第二阶段利用目标假设指导视觉定位,通过生成候选区域并依据关键线索打分筛选,最终输出精确坐标或分割蒙版。对于视觉问答任务,则反向验证选项知识描述与标注区域的匹配度。

实验数据显示,在目标定位任务中,Pixel-Searcher将基础模型Qwen3-VL-8B的IoU指标从26.81提升至34.17,Recall@0.5从32.61提升至41.30,动漫角色与IP形象类别的提升尤为显著。目标分割任务中,gIoU与cIoU指标分别提升3.39与6.47个百分点,车辆类别的分割精度进步明显。视觉问答准确率提高6.1个百分点,商品类题目改善突出。尽管如此,开源方案与闭源商业模型仍存在差距,Doubao-Seed-2.0-Pro在目标分割任务中达到61.22 gIoU,显示该领域仍有较大提升空间。

失败案例分析揭示,78%的错误源于搜索过程或实体解析失误,如获取错误证据或混淆中间推理步骤;19%的错误发生在视觉定位阶段,即便正确解析目标身份仍可能选错区域;仅3%的错误与像素蒙版生成相关。这表明当前模型的核心瓶颈在于跨模态信息整合能力,而非单纯的视觉处理精度。研究团队通过消融实验证实,候选区域生成与多重验证机制是提升性能的关键,单独移除任一环节均会导致指标大幅下降。

该研究通过定义新任务、构建专用数据集及提出解决方案,为计算机视觉领域开辟了跨模态推理的新方向。传统视觉模型如同“只读图不查字典的学生”,而WebEyes与Pixel-Searcher的探索表明,当视觉感知与主动信息检索相结合时,人工智能方能应对真实世界中需要动态知识辅助的复杂场景。完整技术细节可查阅arXiv平台论文编号2605.12497。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version