滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

港科大等高校联合研究：AI视频理解“时序推理”短板暴露无遗

时间：2026-07-04 06:04:03 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当人工智能系统声称能够“看懂”视频时，我们究竟该如何定义“理解”？香港科技大学、北京航空航天大学Colab实验室及香港中文大学联合发布的一项新研究给出了令人深思的答案：当前最先进的视频大模型在需要跨帧追踪物体状态变化的任务中，准确率不足人类三分之一，部分开源模型甚至接近零分。这项以预印本形式发布的成果，通过构建全球首个视频时序逻辑推理基准，揭示了AI视频理解领域长期被忽视的核心短板。

研究团队设计的VIDEO-MME-LOGICAL基准将视频理解拆解为五大基础能力：状态追踪要求系统像人类观察“三杯藏球”游戏般持续记录不可见物体的位置变化；顺序计数需要统计视频中特定事件的总发生次数；时序排列考验对事件先后顺序的记忆能力；动态空间推断要求从运动轨迹中推导几何关系；结构组合则需整合多视角信息构建完整空间模型。这些能力被具象化为25类任务，涵盖从键盘按键序列识别到3D迷宫路线匹配等场景，每个任务设置简单、中等、困难三个难度等级，通过延长视频时长和增加推理步骤提升挑战性。

实验结果呈现巨大鸿沟。人类标注员在整体测试中达到95.9%的准确率，而表现最佳的商业模型Gemini-3.1 Pro仅得28.6%，GPT-5.4为22.7%。开源模型表现更为惨淡，Qwen3-VL-8B准确率11.9%，LLaVA-Video-7B几乎全军覆没。当任务难度从简单升级到困难时，所有模型性能均显著下滑，GPT-5.4在困难题上的准确率较简单题暴跌15.6个百分点，显示出当前系统在长时序推理上的根本性缺陷。

研究特别设计的中间状态验证环节暴露出更深层问题。在要求模型输出完整推理过程的子集测试中，所有开源模型均无法生成符合要求的中间步骤，商业模型表现同样糟糕：GPT-5.4中间状态准确率17.4%，Gemini-3.1 Pro仅10.8%。更反常的是，部分模型在最终答案正确时推理过程完全错误，例如Gemini-3.1 Pro虽能输出格式完整的交换序列，却将正确答案A误判为D；而GPT-5.4虽猜中最终位置，却将实际发生的5次杯子交换错误压缩为2次。这种“答案正确但过程错误”的现象，在传统仅验证最终答案的测试中完全无法察觉。

针对“数据规模能否填补能力鸿沟”的疑问，研究团队以Qwen3-VL-8B为基座模型展开实验。当训练数据从2.5万条增至37.5万条时，模型准确率从36.8%提升至39.2%的峰值，但继续增加至50万条时性能反而下降。在简单任务上，经过训练的模型展现出一定迁移能力，准确率达54.8%，但在中等和困难任务中，2.5万条数据训练的模型表现甚至优于37.5万条数据训练的版本。这表明当前训练范式下，单纯扩大数据规模已接近效益极限，模型仍无法稳定处理需要更长时序记忆和更复杂推理的任务。

研究团队指出，人类在“三杯藏球”类任务中的优势源于工作记忆机制——即使物体不可见，大脑仍能持续维护其状态信息。而现有AI系统缺乏这种跨帧信息保持能力，即便配备“思考”功能的模型，若初始感知存在偏差，延长思考时间只会放大错误。例如Qwen3-VL-8B在开启思考模式后准确率从11.9%降至6.6%，正是由于错误感知基础上的过度推理。

这项研究重新定义了视频理解的评价维度：真正的理解不仅是识别画面内容，更需要构建随时间演变的动态认知模型。当前基准测试中，人类与AI的准确率差距最高达70个百分点，揭示出技术发展路径中的关键断层。对于开发者而言，VIDEO-MME-LOGICAL提供的不仅是评估工具，更是明确的能力边界图谱；对于使用者，该研究警示在涉及跨时序状态追踪的场景中，AI输出结果需格外谨慎验证。研究数据集与评测代码已公开，为学术界突破时序逻辑推理瓶颈提供了新的实验平台。

更多>同类资讯

AI生成图像视频：真懂物理规律，还是仅会“照猫画虎”？

07-04

AI大模型"记忆压缩"新突破：无需预设阈值，动态适配各类任务需求

07-04

浙大、西湖大学联手突破：AI探索世界新方案 "隐式漫步"解锁场景记忆新方式

07-04

上海AI实验室350亿参数模型：另辟蹊径，挑战万亿参数大模型霸主地位

07-04

生数科技发布Vidu S1，实时交互视频生成模型开启数字人新篇章

07-04

戛纳舞台上的中国力量：可灵AI助力两部作品，开启商业创意新篇章

07-04

生数科技Vidu S1问世：以实时交互能力，开启视频生成全新篇章

07-04

AniShort上线三月营收破300万，八点八数字耿广星：工作流赋能AI短剧工业化突围

07-04

聚焦2026产融交流会：机器人商业化突破口在哪？产学研共探新路径

07-04

从雨果预言到AI时代：技术变革下人文精神如何应对新挑战？

07-04

紫光同创首发国产自主产权亿门级FPGA及加速卡填补国内高端芯片空白

IT之家 7 月 3 日消息，新紫光集团旗下紫光同创在 2026 慕尼黑上海电子展上发布 Titan-3 系列亿门级高端FPGA，是国内第一款自主产权亿门级高端 FPGA 产品。 IT之家注：FPGA（现场…

07-04

优必选U1系列机器人订单破万，外观引热议：高度仿生下的期待与争议

与通用人形机器人不同，这些公司更注重为机器人打造接近人类的面孔、皮肤、声音与体温，并训练其情绪交互能力，将其定义为“伙伴”甚至一种“新型关系”。这恰恰揭示了仿生机器人的复杂性：人明知它是一台机器，但面对高度…

07-04

桂海潮：从边陲学子到太空逐梦者，用科研与科普点亮航天新未来

回到地面后，他回到讲台和实验室，组建“太空智能操作技术创新中心”，带领50余名师生开展空间机器人和太空交通研究。他指导6名本科生提出多星协同清除“太空垃圾”方案，获得中国国际大学生创新大赛银奖——这6名学生…

07-04

谐波减速器产业链全解析：A股11家核心企业盈利能力大比拼（附名单）

07-04

AI Agent深度融入业务：零售企业跨越价值陷阱，解锁增长新密码

07-04

点击查看更多 +

全站最新

浙江男子苦等10个月“熔岩橙”小米YU7 MAX未交付，配色已下架，门店方案遭拒

上汽名爵总经理直播回应抄袭质疑反遭弹幕围攻哽咽离场引热议

新款福特探险者7月6日上市！2.3T配10AT，车长超5米，配置再升级！

2027款福特探险者：标配10AT与四驱，长白山试驾展现美式旗舰实力

吉利银河战舰700内饰官图曝光：AI硬核SUV配悬浮屏与物理按键

领克20三季度上市在即标配800V高压平台与6C补能倍率成亮点

热门内容

本栏最新

iCAR V27大版本OTA升级：HSD V2.0赋能，智驾座舱全面进化

零跑B10新动作来袭！官宣新车色，配置亮点与价格信息一览

一汽丰田2027款格瑞维亚上市携手复星旅文打造家庭出行新体验

优必选“机器人伴侣”引热议：高售价订单火爆，是噱头还是新趋势？

2027款丰田格瑞维亚上市，配置升级二排体验提升，焕新权益价23.68万起

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.