滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

浙大等团队攻克多模态模型“幻觉”难题：先感知校准，后推理算力巧分配

时间：2026-03-22 19:09:35 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当图像逐渐模糊直至难以辨认时，多模态大模型依然会给出高度自信的答案——这种“盲目自信”现象正成为视觉推理领域的关键挑战。浙江大学、阿里巴巴集团、香港城市大学与密歇根大学联合团队通过实验发现，随着图像噪声增强，模型准确率急剧下降，但置信度却几乎保持不变。这一发现促使研究团队提出CA-TTS（Confidence-Aware Test-Time Scaling）框架，通过重新校准模型对视觉证据的敏感度，在四个主流视觉推理基准测试中实现平均8.8%的性能提升。

研究团队将这种现象定义为“感知钝化”：模型无法感知视觉信息质量的变化，导致视觉证据明显退化时仍维持高置信度。这种特性与人类在看不清题目时强行作答的行为高度相似。为解决该问题，团队创新性地采用响应级置信度度量方式，将整个输出序列的平均负对数概率作为置信度指标，构建了包含训练阶段校准与推理阶段扩展的双阶段解决方案。

在训练阶段，核心模块CDRL（Confidence-Driven Reinforcement Learning）通过双重奖励机制重塑模型认知。感知敏感性奖励要求模型对原始图像与加噪图像产生合理置信度差异，校准一致性奖励则对正确高置信预测给予奖励，对错误高置信预测施加惩罚。实验数据显示，经过CDRL训练的模型在面对噪声图像时，置信度下降幅度是训练前的4.3倍；在遮挡条件下，这一比值达到4.7倍。特别值得注意的是，训练前模型在视角变换和马赛克干扰下置信度会反向上升，而训练后所有视觉扰动条件下的置信度均显著下降。

推理阶段的CA-TTS框架将校准后的置信度转化为动态调度信号，包含三个协同模块：Self-Consistency采用置信度加权投票替代简单多数投票，并引入专家模型进行二次校准；Self-Reflection在初步结果置信度不足时，由专家模型生成批评意见引导重新推理；Self-Check通过对比原始图像与噪声图像的输出概率分布，验证答案对视觉证据的依赖程度。这种多阶段验证闭环设计使模型具备自我纠错能力，在“墙上缺砖数量”等复杂推理任务中，相比Tree-of-Thoughts方法展现出更强的容错性。

实验结果表明，以Qwen2.5-VL-7B为基座模型的CA-TTS在Math-Vision基准上将准确率从23.0%提升至42.4%，在MMMU基准上达到66.3%的准确率。消融实验显示，单独使用CDRL可提升3.4个百分点，单独使用CA-TTS提升15.0个百分点，二者结合产生19.4个百分点的协同效应。进一步分析发现，即使让基座模型自身充当专家，性能仍比多数投票方法高出近5个百分点，证明框架有效性不依赖外部强模型。

在资源扩展性测试中，CA-TTS展现出显著优势。当采样数量从1增加到32时，其准确率增长斜率达到3.65，分别是多数投票方法和DeepConf方法的2.2倍和3.1倍。这意味着CA-TTS能更有效地将计算资源分配给真正不确定的问题，在相同算力消耗下实现更高的性能提升。这种特性重新定义了测试时扩展的效率上限，使“多算一点”具有明确的方向性。

该研究突破传统多模态推理“先推理后感知”的固有范式，提出“先感知后推理”的新思路。通过建立对视觉证据变化敏感且与准确性一致的置信度体系，确保推理过程建立在可靠的感知基础之上。尽管多次采样与专家模型调用会带来额外计算成本，且当前验证主要集中在数学推理和通用视觉问答任务，但这种将感知质量与推理资源动态绑定的设计理念，为提升模型在关键场景中的可靠性提供了全新路径。

更多>同类资讯

2026年5月手机新品“小高峰”落幕！这四款新机各具特色别错过

05-01

五一出行新变化：油价高企油车愁，电车崛起成新宠

05-01

北京车展：传统车企面临大考，智能生态成汽车业未来新战场？

05-01

奥迪E7X北京车展亮相大型豪华纯电SUV携创新科技深耕中国市场

05-01

宁德时代官方查询渠道上线，一键查清心仪车型是否搭载其电池

05-01

小米或推新一代手环Pro 5月亮相！白陶瓷版登场普通版轻至40g内

05-01

特斯拉去年业绩亮眼：与马斯克旗下xAI及SpaceX交易营收超5亿美元

05-01

小米汽车2026年4月交付破3万门店扩张至495家服务网点覆盖165城

小米汽车4月新增5家门店，全国143城已有495家门店；5月计划新增2家门店，预计覆盖2座新城市：宿州、蚌埠；截至4月30日，全国已有286家服务网点，覆盖全国165城。综合IT之家此前报道，小米汽车今年4月…

05-01

极越汽车迎关键节点：六家关联主体正式步入实质合并重整阶段

该公告称，上海市第三中级人民法院已裁定受理上海集度汽车有限公司和上海集度科技有限公司、集度科技（武汉）有限公司、武汉集度汽车服务有限公司、北京集度科技有限公司、北京集度汽车零部件有限公司进行实质合并重整的申请…

05-01

极越汽车重整迈出关键一步六家关联主体正式进入实质合并重整阶段

05-01

小米汽车4月交付量环比增50% 1-4月破10.9万辆 YU7 GT月底亮相引期待

05-01

小米汽车4月交付量超30000台

05-01

三星要造安卓笔记本，入门到旗舰全覆盖

05-01

苹果Q2财报会：新CEO特努斯首亮相，库克赞iPhone引领中国市场增长

05-01

小米汽车交付量持续攀升：4月超3万，24个月累计超65.5万

05-01

点击查看更多 +

全站最新

2026款广汽埃安UT 320星辉版上市，限时一口价6.88万增配不加价

上汽通用五菱4月成绩亮眼：全球销量超11万海外出口首破3万大关

小米汽车2026年4月交付破3万门店扩张至495家服务网点覆盖165城

澳门4月幸运博彩毛收入198.94亿澳门元同比增长5.5%逊预期

剧烈洗牌！年内最牛ETF榜单出炉

极越汽车迎关键节点：六家关联主体正式步入实质合并重整阶段

热门内容

本栏最新

五一出行新变化：油价高企油车愁，电车崛起成新宠

奥迪E7X北京车展亮相大型豪华纯电SUV携创新科技深耕中国市场

宁德时代官方查询渠道上线，一键查清心仪车型是否搭载其电池

小米汽车2026年4月交付破3万门店扩张至495家服务网点覆盖165城

极越汽车迎关键节点：六家关联主体正式步入实质合并重整阶段

极越汽车重整迈出关键一步六家关联主体正式进入实质合并重整阶段

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.