ITBear旗下自媒体矩阵:

浙大等团队攻克多模态模型“幻觉”难题:先感知校准,后推理算力巧分配

   时间:2026-03-22 19:09:35 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当图像逐渐模糊直至难以辨认时,多模态大模型依然会给出高度自信的答案——这种“盲目自信”现象正成为视觉推理领域的关键挑战。浙江大学、阿里巴巴集团、香港城市大学与密歇根大学联合团队通过实验发现,随着图像噪声增强,模型准确率急剧下降,但置信度却几乎保持不变。这一发现促使研究团队提出CA-TTS(Confidence-Aware Test-Time Scaling)框架,通过重新校准模型对视觉证据的敏感度,在四个主流视觉推理基准测试中实现平均8.8%的性能提升。

研究团队将这种现象定义为“感知钝化”:模型无法感知视觉信息质量的变化,导致视觉证据明显退化时仍维持高置信度。这种特性与人类在看不清题目时强行作答的行为高度相似。为解决该问题,团队创新性地采用响应级置信度度量方式,将整个输出序列的平均负对数概率作为置信度指标,构建了包含训练阶段校准与推理阶段扩展的双阶段解决方案。

在训练阶段,核心模块CDRL(Confidence-Driven Reinforcement Learning)通过双重奖励机制重塑模型认知。感知敏感性奖励要求模型对原始图像与加噪图像产生合理置信度差异,校准一致性奖励则对正确高置信预测给予奖励,对错误高置信预测施加惩罚。实验数据显示,经过CDRL训练的模型在面对噪声图像时,置信度下降幅度是训练前的4.3倍;在遮挡条件下,这一比值达到4.7倍。特别值得注意的是,训练前模型在视角变换和马赛克干扰下置信度会反向上升,而训练后所有视觉扰动条件下的置信度均显著下降。

推理阶段的CA-TTS框架将校准后的置信度转化为动态调度信号,包含三个协同模块:Self-Consistency采用置信度加权投票替代简单多数投票,并引入专家模型进行二次校准;Self-Reflection在初步结果置信度不足时,由专家模型生成批评意见引导重新推理;Self-Check通过对比原始图像与噪声图像的输出概率分布,验证答案对视觉证据的依赖程度。这种多阶段验证闭环设计使模型具备自我纠错能力,在“墙上缺砖数量”等复杂推理任务中,相比Tree-of-Thoughts方法展现出更强的容错性。

实验结果表明,以Qwen2.5-VL-7B为基座模型的CA-TTS在Math-Vision基准上将准确率从23.0%提升至42.4%,在MMMU基准上达到66.3%的准确率。消融实验显示,单独使用CDRL可提升3.4个百分点,单独使用CA-TTS提升15.0个百分点,二者结合产生19.4个百分点的协同效应。进一步分析发现,即使让基座模型自身充当专家,性能仍比多数投票方法高出近5个百分点,证明框架有效性不依赖外部强模型。

在资源扩展性测试中,CA-TTS展现出显著优势。当采样数量从1增加到32时,其准确率增长斜率达到3.65,分别是多数投票方法和DeepConf方法的2.2倍和3.1倍。这意味着CA-TTS能更有效地将计算资源分配给真正不确定的问题,在相同算力消耗下实现更高的性能提升。这种特性重新定义了测试时扩展的效率上限,使“多算一点”具有明确的方向性。

该研究突破传统多模态推理“先推理后感知”的固有范式,提出“先感知后推理”的新思路。通过建立对视觉证据变化敏感且与准确性一致的置信度体系,确保推理过程建立在可靠的感知基础之上。尽管多次采样与专家模型调用会带来额外计算成本,且当前验证主要集中在数学推理和通用视觉问答任务,但这种将感知质量与推理资源动态绑定的设计理念,为提升模型在关键场景中的可靠性提供了全新路径。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version