滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

ICML 2026新突破：视觉自恢复结合双奖励机制，破解受损图像理解难题

时间：2026-06-16 13:06:05 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当一张照片因压缩、噪声、暗光或模糊而面目全非时，传统多模态模型仍能输出看似流畅的分析，但这些回答往往缺乏可靠的视觉依据。例如，车头方向已模糊不清，模型却能解释车辆为何“直行”；公交车轮廓重叠难辨，它仍能“自信”地数出三辆。针对这一困境，研究人员提出一种新方法——Robust-U1，通过让模型先生成恢复后的图像，再结合原始受损图与恢复图进行联合推理，显著提升了视觉鲁棒性。

传统方法主要分为两类：一类是让视觉编码器适应噪声，另一类是让模型用文字描述图像受损情况后再推理。然而，这些方法均存在局限性。特征对齐虽能提高预测稳定性，却难以解释模型具体恢复了哪些信息；文本描述虽能提醒模型“此处可能看不清”，却无法重建车辆朝向、物体数量等关键细节。更严重的是，当视觉证据已彻底破坏时，模型可能围绕错误观察组织出看似连贯却完全错误的解释。

Robust-U1的核心创新在于将图像恢复纳入多模态推理流程。该模型并非简单地在前端外挂一个图像修复器，而是让理解、恢复和回答由同一模型协同完成。具体而言，模型首先生成一张恢复图以补充结构和语义信息，同时保留原始受损图作为约束，避免恢复过程引入幻觉。这种设计使恢复不再等同于“重画一张图”，而是成为可被原图校验的中间推理步骤。

训练过程分为三个阶段。第一阶段通过监督微调，让模型在75万组受损-干净图像对上学习近似退化逆过程，初步掌握去噪和模糊去除能力。第二阶段引入强化学习，通过像素结构奖励（SSIM）和语义一致性奖励（CLIP）约束恢复图质量。前者关注轮廓、边缘等局部结构，后者确保画面语义与原图一致，二者结合避免了恢复图“清晰但错误”的问题。第三阶段进行双图推理训练，模型学会以恢复图为主观察，同时回看受损图校验歧义，最终完成语言推理。

实验结果显示，Robust-U1在R-Bench评测集上综合得分达0.7398，显著高于基础模型BAGEL的0.5770和文本推理方法Robust-R1的0.5017。尤其在图像描述任务中，恢复图补充了大量场景级内容，优势更为明显。人工退化实验进一步验证了其鲁棒性：当退化程度达到100%时，Robust-U1仅下降1.57分，而BAGEL和Robust-R1分别下降3.44分和6.06分。消融实验表明，若取消双图推理，综合分降至0.6623；移除像素或语义奖励，得分也会明显下滑，证明三者缺一不可。

该方法对暗光驾驶、遥感、监控和医学影像等领域具有重要价值。这些任务的错误常源于感知信息缺失，而非语言推理不足。恢复图不仅提供了可观察的中间结果，使系统能直接查看模型依据的视觉内容，还通过像素-语义双奖励降低了幻觉风险。不过，研究也指出，恢复本质是基于训练分布的估计，仍存在生成错误的可能。例如，训练成本较高，仅恢复监督阶段就需1920个L20 GPU小时；推理时生成图像也会增加延迟。当前方法依赖成对的受损-干净图片，无干净参考时综合分降至0.6233，视频时间一致性等问题仍需进一步探索。

从研究脉络看，视觉鲁棒性领域正经历从“抵抗退化”到“恢复证据”的转变。早期工作如TeCoA通过对抗训练改善局部攻击下的稳定性，R-Bench系统评测了真实退化对多模态模型的影响，Robust CLIP则在表示层提高对扰动的抵抗能力。近年来，研究者开始尝试让模型生成辅助图像参与思考，如Thinking with Generated Images将视觉内容从输入模态变为中间推理载体。Robust-U1则更进一步，将图像恢复纳入统一多模态模型的推理链，通过像素-语义双奖励约束恢复结果，再联合原图完成判断，为解决视觉证据缺失问题提供了新方向。

更多>同类资讯

中国成功发射天链二号06星

07-24

菲尔兹奖从“0到2”之后，中国数学还需要“从2到N”的耐力

07-24

英特尔交出近15年最强增长成绩单，数据中心业务收入大增59%

07-24

荣耀官宣启用全新品牌标识「荣耀之环」

07-24

顶流接连受挫！继王小亿后，短剧演员王楠项目延期

07-24

菲尔兹奖揭晓！两位中国青年数学家同获殊荣创历史性突破

07-24

中国青年数学家王虹邓煜同获菲尔兹奖，邓煜知乎主页展现别样风采

07-24

2026年7月23日天链二号06星成功发射长征系列火箭再添新功

07-24

AMD第六代EPYC Venice CPU亮相：2nm工艺加持，性能功耗双突破

07-24

中国数学家邓煜、王虹斩获菲尔兹奖开启中国数学新里程碑

07-24

钙钛矿光伏电池迎新进展：强“电子共振”设计助力极地太空应用

IT之家 7 月 23日消息，东南大学今日宣布，东南大学材料科学与工程学院张天恺教授联合苏州大学李耀文教授、陈先凯教授团队，提出一种新型钙钛矿光伏电池界面层设计策略—— 具有强“电子共振”结构的单分子层，…

07-24

智能多元腐蚀监测终端：多维度监测，为管道安全智慧运维保驾护航

区别于传统单一电位采集的普通智能测试桩，该设备突破传统监测局限，实现多元腐蚀参数同步采集、智能分析、远程传输、故障诊断一体化功能，可全方位监测钢质管道腐蚀工况与阴极保护运行状态，广泛应用于长输油气管道、城市燃…

07-24

光伏逆变器综合检测系统：项目验收核心装备，精准评估全生命周期性能

光伏逆变器检测系统是一套集成了电气性能、安全防护、电磁兼容性及并网特性等多功能于一体的高精度、自动化检测平台。该仪器作为项目结题验收的关键技术装备，其核心通常由高精度功率分析仪、可编程交流/直流电源、直流电…

07-24

中齐能源微压气动发电机：以技术积累破局低压气动能源回收难题

中齐能源科技有限公司成立于2019年1月3日，总部位于山东省淄博市周村区，业务覆盖全国，长期专注于工商业互联网软件、综合能源管理及工业“三余”综合利用开发与管理，其产品体系中的微压气动发电机，正是针对这一细分…

07-24

填补太空光伏标准空白！我国拟成立工作组构建标准体系框架并召开技术论坛

IT之家 7 月 23 日消息，据 CTC 国检集团国家光伏中心今日消息，为补齐我国太空光伏领域标准空白，规范技术研发、试验验证与工程应用，推动太空光伏产业规范化、高质量、体系化发展，中国材料与试验标准化委员…

07-24

点击查看更多 +

全站最新

博格领祥2026济南新能源电动车展启幕，全系设备赋能锂电产业新发展

萤火虫halo寻光系列栖息地上市！设计细节拉满，纯电续航420km

奥迪与苹果设计大师联手，Amble One微型越野车亮相，灵感源自NASA月球车

博格领祥2026济南新能源电动车展启幕，全系设备助力锂电产业新发展

北京越野泰钽700另辟蹊径：借豪华智能突围，重塑品牌商务豪华新标签

东风奕派M8正式登场！16.58万起享六座大空间，华为智能方案全系标配

热门内容

本栏最新

每月10分钟清理空滤和节气门，动力提升油耗降，新手也能轻松搞定！

大厂财税合规全解析：企业运营关键场景与服务选择指南

蚂蚁保携手张雪机车推出联名意外险，多样版本满足不同保障需求

福建企业AI工作台建设：选对试点部门，四步走策略让落地更高效

刹车失灵别慌！掌握这两套“隐藏刹车法”，关键时刻能保命！

跨境社媒运营揭秘：单人高效管理百个海外账号的标准化实操指南

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.