在人工智能领域,视频理解技术一直是研究热点。传统AI视频理解系统在处理长视频时存在明显短板,就像只能“一遍过”看视频的观众,看完就得立刻给出答案,无法重新检查可能遗漏的重要细节。这导致面对长视频时,系统理解能力受限,如同被要求看完两小时电影后,不许回想情节就回答复杂问题一样困难。
小米人工智能实验室(MiLM Plus)的李佳泽带领团队,联合独立研究者以及中国人民大学团队,针对这一难题展开研究。他们发现现有AI系统在理解长视频内容时,只会重新思考文字描述,却不会重新审视视频画面本身,就像学生考试只反复读题目,却不观察图表和图像。而人类在遇到复杂视频理解任务时,会自然地回到关键画面再次观察和思考。
为解决此问题,研究团队开发了名为REVISOR的创新框架。该框架结合了“反思”“视觉”“片段”和“推理”四个关键概念,如同给AI配备“倒带功能”,使其能像智能视频观察者一样工作。其工作方式分两阶段进行,第一阶段类似快速浏览,AI先粗略看一遍整个视频,形成初步印象,同时标记出重要或困惑的时间段,就像用便签纸标记书中重要章节。
第二阶段,AI启动“视觉工具箱”,重新仔细观察被标记的关键片段。它会用更高精度重新采样这些片段画面,获取更详细的视觉信息,再结合初步观察结果和新信息,进行深入反思和重新推理,最终得出准确答案。这一过程如同侦探调查案件,先听取案件大致情况形成初步判断,再重返现场仔细检查可疑区域寻找关键证据,最后综合信息得出结论。
为确保AI准确找到重要视频片段,研究团队设计了“双重归因解耦奖励机制”(DADR)。传统AI训练方法只关注最终答案是否正确,如同只看考试分数不关心解题过程。而DADR机制要求AI既能给出正确答案,又能准确识别支持答案的关键视频片段,只有两者都满足,AI才会获得最高奖励分数,避免其“碰运气”答题。
研究团队在多个权威数据集上对REVISOR进行测试,效果显著。在VideoMME长视频理解基准测试中,REVISOR相比基础模型准确率提升1.4%,在长视频子集上提升2.8%;在包含长达120分钟视频的MLVU数据集上,准确率提升2.5%。在视频片段定位任务上,它在Charades-STA数据集上达到51.4%的精确定位率,比之前最佳方法提升4.1%,说明其不仅能理解视频内容,还能准确找到关键证据。
为探究REVISOR有效的原因,研究团队进行详细分析实验。他们发现训练过程中,AI生成的文字推理内容逐渐变短,而选择重新观看的视频片段先增长后缩短。这表明AI逐渐认识到,对于长视频理解任务,文字思考作用有限,关键在于重新审视视觉信息。同时,AI先扩大搜索范围确保不遗漏重要信息,后精确定位去除冗余内容,学习过程类似人类专家技能发展轨迹。
研究团队还进行对照实验,强制让AI进行更长的文字推理,结果性能下降,进一步证实对于长视频理解,视觉重新审视比文字反思更重要。
在当今视频内容爆炸的时代,长视频理解技术应用前景广泛。在教育领域,该技术可帮助AI理解课堂录像,识别学生学习状态和关键知识点;在安防监控中,AI能更准确识别异常事件并定位关键时刻;在内容创作领域,AI可协助编辑快速找到视频精彩片段。而且,REVISOR框架无需额外监督学习训练或外部模型支持,易于集成到现有AI系统中,为技术广泛应用奠定基础。
当然,这项研究也有改进空间。目前系统主要针对视频内容,未来可能扩展到其他多模态内容。同时,如何在保持准确性的同时提高效率,也值得进一步探索。
Q&A
Q1:REVISOR框架的工作模式是怎样的?
A:REVISOR采用两阶段模式。先快速浏览视频形成初步印象并标记关键片段,再利用视觉工具箱重新观察这些片段,结合初步结果和详细视觉信息深入反思,得出准确答案,类似侦探先了解案件概况再调查可疑区域。
Q2:双重归因解耦奖励机制DADR有什么作用?
A:DADR机制确保AI既能给出正确答案又能准确定位关键证据。它不只看最终答案对错,还要求AI准确识别支持答案的重要视频片段,只有两者都满足才给予最高奖励,防止AI“碰运气”答题。
Q3:REVISOR在长视频理解方面的效果如何?
A:在多个权威测试中表现出色。在VideoMME数据集上准确率提升1.4%,长视频子集提升2.8%;在MLVU数据集上提升2.5%;视频片段定位任务精确率达51.4%,比之前最佳方法提升4.1%,在AI领域意义重大。









