ITBear旗下自媒体矩阵:

AI“看图说话”背后:链式推理是助力还是干扰?多模态真相待解

   时间:2026-06-30 04:08:11 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当人类面对一张布满玩具车的图片时,只需扫视一眼就能准确说出数量。但当顶尖人工智能被要求"先思考再回答"时,这个看似简单的任务却让AI集体陷入混乱。这项由中国科研团队完成的大规模实验,揭示了多模态大模型在视觉推理领域存在的根本性缺陷。

实验覆盖22个主流AI模型,通过12类任务测试发现,被寄予厚望的"链式推理"技术(Chain-of-Thought)在数学题等逻辑任务中表现优异,却使视觉定位准确率下降4.6%,物体计数错误率增加4.8%。研究人员将这种现象归因于AI的"注意力偏移"——随着推理文字的增加,模型逐渐将关注点从原始图片转向自身生成的中间步骤,如同画家作画时突然专注于自己的笔触而忘记参照原图。

实验设计者通过拆解几何推理任务发现,AI在视觉信息提取阶段的得分比文字计算阶段低20个百分点。这种"轻视觉重语言"的倾向在长篇推理中尤为明显:模型对图片的关注度随着推理进程呈指数级下降,最终完全依赖文字逻辑而脱离视觉依据。当研究人员故意遮挡图片关键信息时,所有模型虽能产生困惑反思,却仍坚持给出错误答案,暴露出浅层视觉理解的本质缺陷。

对比开源模型与商业模型的表现差异更为显著。以数学题为训练素材的开源模型在空间推理任务中表现退化,而谷歌Gemini-2.0等商业模型通过多样化训练数据,在算法推理任务中取得24.7%的精度提升。这种差异印证了研究团队的判断:当前AI的视觉推理能力高度依赖训练数据的领域分布,数学专项训练反而会削弱跨模态理解能力。

实验中出现的反常现象引发深度思考。在视觉定位任务中,规模较小的模型因强制链式推理导致性能下降,类似基础薄弱的学生被要求展示解题过程反而暴露知识漏洞。更值得警惕的是,所有测试模型在图片信息缺失时均无法主动终止推理,这种"明知不可为而为之"的机械性,暴露出AI缺乏真正的认知判断能力。

针对这些缺陷,研究团队提出两条改进路径:一是构建视觉回溯机制,使模型在推理过程中能主动检查图片关键区域;二是开发视觉工具库,让AI在需要时调用图像识别等专用工具。实验显示,配备视觉放大功能的模型在信息缺失时能拒绝作答,调用坐标定位工具的模型则成功解决了复杂棋盘问题。但研究者同时指出,现有模型仍倾向于使用计算器等文字工具,视觉工具使用意识亟待培养。

该研究采用独特的"探针实验"方法,通过分离视觉与文字子任务,精确测量AI在不同认知阶段的性能表现。实验数据表明,视觉信息提取能力与最终解题准确率的相关性高达0.82,远超文字计算能力的0.63。这种量化分析为改进多模态模型提供了关键指标,相关论文已通过arXiv平台公开,编号2606.22565。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version