当人工智能系统声称能够“看懂”视频时,我们究竟该如何定义“理解”?香港科技大学、北京航空航天大学Colab实验室及香港中文大学联合发布的一项新研究给出了令人深思的答案:当前最先进的视频大模型在需要跨帧追踪物体状态变化的任务中,准确率不足人类三分之一,部分开源模型甚至接近零分。这项以预印本形式发布的成果,通过构建全球首个视频时序逻辑推理基准,揭示了AI视频理解领域长期被忽视的核心短板。
研究团队设计的VIDEO-MME-LOGICAL基准将视频理解拆解为五大基础能力:状态追踪要求系统像人类观察“三杯藏球”游戏般持续记录不可见物体的位置变化;顺序计数需要统计视频中特定事件的总发生次数;时序排列考验对事件先后顺序的记忆能力;动态空间推断要求从运动轨迹中推导几何关系;结构组合则需整合多视角信息构建完整空间模型。这些能力被具象化为25类任务,涵盖从键盘按键序列识别到3D迷宫路线匹配等场景,每个任务设置简单、中等、困难三个难度等级,通过延长视频时长和增加推理步骤提升挑战性。
实验结果呈现巨大鸿沟。人类标注员在整体测试中达到95.9%的准确率,而表现最佳的商业模型Gemini-3.1 Pro仅得28.6%,GPT-5.4为22.7%。开源模型表现更为惨淡,Qwen3-VL-8B准确率11.9%,LLaVA-Video-7B几乎全军覆没。当任务难度从简单升级到困难时,所有模型性能均显著下滑,GPT-5.4在困难题上的准确率较简单题暴跌15.6个百分点,显示出当前系统在长时序推理上的根本性缺陷。
研究特别设计的中间状态验证环节暴露出更深层问题。在要求模型输出完整推理过程的子集测试中,所有开源模型均无法生成符合要求的中间步骤,商业模型表现同样糟糕:GPT-5.4中间状态准确率17.4%,Gemini-3.1 Pro仅10.8%。更反常的是,部分模型在最终答案正确时推理过程完全错误,例如Gemini-3.1 Pro虽能输出格式完整的交换序列,却将正确答案A误判为D;而GPT-5.4虽猜中最终位置,却将实际发生的5次杯子交换错误压缩为2次。这种“答案正确但过程错误”的现象,在传统仅验证最终答案的测试中完全无法察觉。
针对“数据规模能否填补能力鸿沟”的疑问,研究团队以Qwen3-VL-8B为基座模型展开实验。当训练数据从2.5万条增至37.5万条时,模型准确率从36.8%提升至39.2%的峰值,但继续增加至50万条时性能反而下降。在简单任务上,经过训练的模型展现出一定迁移能力,准确率达54.8%,但在中等和困难任务中,2.5万条数据训练的模型表现甚至优于37.5万条数据训练的版本。这表明当前训练范式下,单纯扩大数据规模已接近效益极限,模型仍无法稳定处理需要更长时序记忆和更复杂推理的任务。
研究团队指出,人类在“三杯藏球”类任务中的优势源于工作记忆机制——即使物体不可见,大脑仍能持续维护其状态信息。而现有AI系统缺乏这种跨帧信息保持能力,即便配备“思考”功能的模型,若初始感知存在偏差,延长思考时间只会放大错误。例如Qwen3-VL-8B在开启思考模式后准确率从11.9%降至6.6%,正是由于错误感知基础上的过度推理。
这项研究重新定义了视频理解的评价维度:真正的理解不仅是识别画面内容,更需要构建随时间演变的动态认知模型。当前基准测试中,人类与AI的准确率差距最高达70个百分点,揭示出技术发展路径中的关键断层。对于开发者而言,VIDEO-MME-LOGICAL提供的不仅是评估工具,更是明确的能力边界图谱;对于使用者,该研究警示在涉及跨时序状态追踪的场景中,AI输出结果需格外谨慎验证。研究数据集与评测代码已公开,为学术界突破时序逻辑推理瓶颈提供了新的实验平台。











