ITBear旗下自媒体矩阵:

ICML 2026新突破:视觉自恢复结合双奖励机制,破解受损图像理解难题

   时间:2026-06-16 13:06:05 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当一张照片因压缩、噪声、暗光或模糊而面目全非时,传统多模态模型仍能输出看似流畅的分析,但这些回答往往缺乏可靠的视觉依据。例如,车头方向已模糊不清,模型却能解释车辆为何“直行”;公交车轮廓重叠难辨,它仍能“自信”地数出三辆。针对这一困境,研究人员提出一种新方法——Robust-U1,通过让模型先生成恢复后的图像,再结合原始受损图与恢复图进行联合推理,显著提升了视觉鲁棒性。

传统方法主要分为两类:一类是让视觉编码器适应噪声,另一类是让模型用文字描述图像受损情况后再推理。然而,这些方法均存在局限性。特征对齐虽能提高预测稳定性,却难以解释模型具体恢复了哪些信息;文本描述虽能提醒模型“此处可能看不清”,却无法重建车辆朝向、物体数量等关键细节。更严重的是,当视觉证据已彻底破坏时,模型可能围绕错误观察组织出看似连贯却完全错误的解释。

Robust-U1的核心创新在于将图像恢复纳入多模态推理流程。该模型并非简单地在前端外挂一个图像修复器,而是让理解、恢复和回答由同一模型协同完成。具体而言,模型首先生成一张恢复图以补充结构和语义信息,同时保留原始受损图作为约束,避免恢复过程引入幻觉。这种设计使恢复不再等同于“重画一张图”,而是成为可被原图校验的中间推理步骤。

训练过程分为三个阶段。第一阶段通过监督微调,让模型在75万组受损-干净图像对上学习近似退化逆过程,初步掌握去噪和模糊去除能力。第二阶段引入强化学习,通过像素结构奖励(SSIM)和语义一致性奖励(CLIP)约束恢复图质量。前者关注轮廓、边缘等局部结构,后者确保画面语义与原图一致,二者结合避免了恢复图“清晰但错误”的问题。第三阶段进行双图推理训练,模型学会以恢复图为主观察,同时回看受损图校验歧义,最终完成语言推理。

实验结果显示,Robust-U1在R-Bench评测集上综合得分达0.7398,显著高于基础模型BAGEL的0.5770和文本推理方法Robust-R1的0.5017。尤其在图像描述任务中,恢复图补充了大量场景级内容,优势更为明显。人工退化实验进一步验证了其鲁棒性:当退化程度达到100%时,Robust-U1仅下降1.57分,而BAGEL和Robust-R1分别下降3.44分和6.06分。消融实验表明,若取消双图推理,综合分降至0.6623;移除像素或语义奖励,得分也会明显下滑,证明三者缺一不可。

该方法对暗光驾驶、遥感、监控和医学影像等领域具有重要价值。这些任务的错误常源于感知信息缺失,而非语言推理不足。恢复图不仅提供了可观察的中间结果,使系统能直接查看模型依据的视觉内容,还通过像素-语义双奖励降低了幻觉风险。不过,研究也指出,恢复本质是基于训练分布的估计,仍存在生成错误的可能。例如,训练成本较高,仅恢复监督阶段就需1920个L20 GPU小时;推理时生成图像也会增加延迟。当前方法依赖成对的受损-干净图片,无干净参考时综合分降至0.6233,视频时间一致性等问题仍需进一步探索。

从研究脉络看,视觉鲁棒性领域正经历从“抵抗退化”到“恢复证据”的转变。早期工作如TeCoA通过对抗训练改善局部攻击下的稳定性,R-Bench系统评测了真实退化对多模态模型的影响,Robust CLIP则在表示层提高对扰动的抵抗能力。近年来,研究者开始尝试让模型生成辅助图像参与思考,如Thinking with Generated Images将视觉内容从输入模态变为中间推理载体。Robust-U1则更进一步,将图像恢复纳入统一多模态模型的推理链,通过像素-语义双奖励约束恢复结果,再联合原图完成判断,为解决视觉证据缺失问题提供了新方向。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version