滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

视频AI的“火眼金睛”：Robust-TO框架如何破解干扰画面难题？

时间：2026-07-01 00:17:20 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在交通执法场景中，执法人员通过行车记录仪视频认定闯红灯车辆时，常面临画面干扰问题——雨天雨刮器抖动导致部分帧模糊、大卡车遮挡关键区域、夜间强光造成画面过曝。传统视频理解AI系统却存在明显缺陷：它们将所有视频帧视为同等可靠证据，无论清晰与否均纳入分析。这种处理方式在真实场景中暴露出严重问题，成为新加坡南洋理工大学、明尼苏达大学双城分校与蔚山科学技术院联合研究的核心关注点。

研究团队在UrbanVideo-Bench基准测试中发现，主流视频推理模型在遭遇运动模糊、高斯噪点、强光眩晕、物体遮挡、低光照等五种典型干扰时，准确率平均下降15至30个百分点。更严峻的是，这些模型在输出错误结果时仍保持高置信度，形成"沉默的失败"现象。在自动驾驶事故复盘或安防监控等关键场景中，这种缺陷可能导致严重后果——使用者无法察觉AI已提供错误信息。

针对这一难题，研究团队提出名为Robust-TO的创新框架，其设计灵感源自人类处理视觉信息的直觉方式。该框架通过三阶段流程实现智能筛选：首先利用无参数画质评估工具assess_quality，从模糊度、亮度偏差、遮挡程度三个维度计算每帧干扰分数；随后结合画面与问题的相关性进行综合评分，筛选出既清晰又相关的帧作为可信证据池。实验数据显示，这种筛选机制使视频帧数量从32帧压缩至20.7帧，推理时间减少35%的同时提升1.6个百分点准确率。

在证据利用阶段，Robust-TO采用动态工具路由策略。系统将复杂问题拆解为多个原子子问题，如空间定位、时序追踪、文字识别等，再根据主导干扰类型选择最适配的分析工具。例如面对运动模糊画面时，系统优先调用场景描述工具而非目标检测工具；遭遇遮挡时则用动作识别替代时序追踪。每个工具的输出均附带双重置信度——工具自身判断结果的可信度与输入帧质量的综合评分，特别采用"最差三分之一帧"的保守策略确保风险可控。

最终推理阶段建立三级证据体系：高置信度证据（置信度≥0.7且干扰<0.3）直接形成结论，中置信度证据（0.3<置信度<0.7且干扰<0.7）仅用于验证，低置信度证据仅在无其他选择时作为补充，且最终答案明确标注剩余不确定性。这种机制确保可靠证据主导结论，有效避免不可信信息干扰。

为训练主控AI掌握这种复杂决策能力，研究团队采用GRPO强化学习方法，设计包含正确性奖励、置信度成本奖励、子问题效率奖励、格式奖励的四维反馈机制。其中置信度成本奖励最具创新性，该机制通过"置信度减去工具成本乘以惩罚系数"的公式，鼓励AI在保证结果可靠性的前提下优先使用计算成本更低的工具。实验表明，移除该奖励项会导致准确率下降2.3个百分点。

在公开基准测试中，Robust-TO展现出显著优势。以Qwen3-VL-7B为基础模型的版本在UrbanVideo-Bench和VSI-Bench两个基准测试的八个任务中，六个任务取得最佳成绩。面对干扰视频时，其54.3%的平均准确率分别超出Video-R1、Gemini-2.5-Pro和GPT-4o模型5.8、16.2和22.1个百分点。特别值得注意的是，该框架从干净视频到干扰视频的准确率降幅仅为3.5个百分点，远低于传统模型的9.4个百分点降幅。

论文通过真实案例验证框架有效性：在包含眩光、模糊、遮挡三种干扰的24帧视频中，传统AI因错误利用高干扰帧得出错误车牌号，而Robust-TO通过筛选出8帧高质量画面，结合交通灯状态识别、车辆检测、轨迹追踪和车牌读取四个子问题的分析，最终准确锁定闯红灯车辆及其车牌号，整体置信度达0.72。

尽管取得突破性进展，研究团队仍客观指出当前局限：现有画质评估工具无法识别对抗性攻击、语义遮挡等复杂干扰；子问题数量预测依赖的"冻结估算AI"存在能力上限；帧筛选依赖的视觉编码器可能受特定干扰影响；极端干扰场景下5%的额外延迟可能影响实时应用。这些坦诚的反思为后续研究指明了方向。

该研究首次将视频帧质量评估转化为可量化的工程问题，为高风险场景中的AI视频分析提供了可靠解决方案。通过让每条证据携带可信度标签，使推理过程明确知晓信息可靠性，这种设计思路或许标志着AI从"盲目自信"向"风险感知"的重要跨越。完整技术细节可通过arXiv编号2606.26904查阅，项目主页rova-v2.github.io提供更多演示案例。

更多>同类资讯

Hermes Agent推出MoA功能：多模型组合能否开启AI应用新范式？

07-01

中昊芯英推出自研高性能TPU芯片须臾及智算底座泰则2.0 引领AI算力新突破

06-30

33年坚守与创新：中国载人航天发射场铸就飞天新辉煌

06-30

海尔旗下公司布局新能源领域，马鞍山海旭顺新能源有限公司正式成立

06-30

韩红清空商业版图仅留慈善基金会，公益行动启程却遭质疑声浪

06-30

小摩微升迪士尼目标价至140美元

06-30

全国第二例CAPA-IVM试管婴儿在锦欣西囡顺利分娩 "温和试管"可复制性获验证

06-30

美股异动丨康宁重磅发布Glass Bridge，光通信概念涨势延续

06-30

交行将关闭上金所贵金属代理个人业务，多家银行密集收紧

06-30

阿斯麦股价续刷历史新高，市值达7587亿美元

06-30

费城半导体指数涨幅扩大至3%

06-30

和辉光电：上海集成电路基金拟减持不超2%股份

06-30

上海第五批集中供地成交125.72亿元，专家：竞拍热度依旧较高，市场活力明显

06-30

美股涨幅扩大纳指涨超1%

06-30

Stellantis调整欧洲管理层：玛莎拉蒂与阿尔法·罗密欧由同一CEO执掌

06-30

点击查看更多 +

全站最新

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

雷军谈小米SU7 Ultra纽北表现：立志打造比肩保时捷特斯拉的梦想座驾

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

鸿蒙智行智界V9旗舰MPV受热捧 6月交付量突破5000台大关

14个月10万辆达成，东风日产以体系力破局新能源市场

现代汽车或效仿丰田：主流车型加速混动转型，纯燃油车渐行渐远

热门内容

本栏最新

地平线HSD V2.0开启最大规模OTA升级，以双引擎驱动智驾新进化

DeepSeek V4正式版7月中旬上线性能优化还引入峰谷定价新机制

地平线HSD V2.0：以迭代效率与双引擎驱动，开启智驾自主进化新篇章

HSD V2.0迭代升级：以世界模型与强化学习开启智驾自主进化新篇

树下停车遭树胶鸟屎“侵袭”？伤漆真相与打蜡作用一文说清

地平线HSD V2.0版本发布：6大维度进化，主动安全能力实现根本性增强

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.