在交通执法场景中,执法人员通过行车记录仪视频认定闯红灯车辆时,常面临画面干扰问题——雨天雨刮器抖动导致部分帧模糊、大卡车遮挡关键区域、夜间强光造成画面过曝。传统视频理解AI系统却存在明显缺陷:它们将所有视频帧视为同等可靠证据,无论清晰与否均纳入分析。这种处理方式在真实场景中暴露出严重问题,成为新加坡南洋理工大学、明尼苏达大学双城分校与蔚山科学技术院联合研究的核心关注点。
研究团队在UrbanVideo-Bench基准测试中发现,主流视频推理模型在遭遇运动模糊、高斯噪点、强光眩晕、物体遮挡、低光照等五种典型干扰时,准确率平均下降15至30个百分点。更严峻的是,这些模型在输出错误结果时仍保持高置信度,形成"沉默的失败"现象。在自动驾驶事故复盘或安防监控等关键场景中,这种缺陷可能导致严重后果——使用者无法察觉AI已提供错误信息。
针对这一难题,研究团队提出名为Robust-TO的创新框架,其设计灵感源自人类处理视觉信息的直觉方式。该框架通过三阶段流程实现智能筛选:首先利用无参数画质评估工具assess_quality,从模糊度、亮度偏差、遮挡程度三个维度计算每帧干扰分数;随后结合画面与问题的相关性进行综合评分,筛选出既清晰又相关的帧作为可信证据池。实验数据显示,这种筛选机制使视频帧数量从32帧压缩至20.7帧,推理时间减少35%的同时提升1.6个百分点准确率。
在证据利用阶段,Robust-TO采用动态工具路由策略。系统将复杂问题拆解为多个原子子问题,如空间定位、时序追踪、文字识别等,再根据主导干扰类型选择最适配的分析工具。例如面对运动模糊画面时,系统优先调用场景描述工具而非目标检测工具;遭遇遮挡时则用动作识别替代时序追踪。每个工具的输出均附带双重置信度——工具自身判断结果的可信度与输入帧质量的综合评分,特别采用"最差三分之一帧"的保守策略确保风险可控。
最终推理阶段建立三级证据体系:高置信度证据(置信度≥0.7且干扰<0.3)直接形成结论,中置信度证据(0.3<置信度<0.7且干扰<0.7)仅用于验证,低置信度证据仅在无其他选择时作为补充,且最终答案明确标注剩余不确定性。这种机制确保可靠证据主导结论,有效避免不可信信息干扰。
为训练主控AI掌握这种复杂决策能力,研究团队采用GRPO强化学习方法,设计包含正确性奖励、置信度成本奖励、子问题效率奖励、格式奖励的四维反馈机制。其中置信度成本奖励最具创新性,该机制通过"置信度减去工具成本乘以惩罚系数"的公式,鼓励AI在保证结果可靠性的前提下优先使用计算成本更低的工具。实验表明,移除该奖励项会导致准确率下降2.3个百分点。
在公开基准测试中,Robust-TO展现出显著优势。以Qwen3-VL-7B为基础模型的版本在UrbanVideo-Bench和VSI-Bench两个基准测试的八个任务中,六个任务取得最佳成绩。面对干扰视频时,其54.3%的平均准确率分别超出Video-R1、Gemini-2.5-Pro和GPT-4o模型5.8、16.2和22.1个百分点。特别值得注意的是,该框架从干净视频到干扰视频的准确率降幅仅为3.5个百分点,远低于传统模型的9.4个百分点降幅。
论文通过真实案例验证框架有效性:在包含眩光、模糊、遮挡三种干扰的24帧视频中,传统AI因错误利用高干扰帧得出错误车牌号,而Robust-TO通过筛选出8帧高质量画面,结合交通灯状态识别、车辆检测、轨迹追踪和车牌读取四个子问题的分析,最终准确锁定闯红灯车辆及其车牌号,整体置信度达0.72。
尽管取得突破性进展,研究团队仍客观指出当前局限:现有画质评估工具无法识别对抗性攻击、语义遮挡等复杂干扰;子问题数量预测依赖的"冻结估算AI"存在能力上限;帧筛选依赖的视觉编码器可能受特定干扰影响;极端干扰场景下5%的额外延迟可能影响实时应用。这些坦诚的反思为后续研究指明了方向。
该研究首次将视频帧质量评估转化为可量化的工程问题,为高风险场景中的AI视频分析提供了可靠解决方案。通过让每条证据携带可信度标签,使推理过程明确知晓信息可靠性,这种设计思路或许标志着AI从"盲目自信"向"风险感知"的重要跨越。完整技术细节可通过arXiv编号2606.26904查阅,项目主页rova-v2.github.io提供更多演示案例。











