人工智能领域正迎来一场针对视频技术的深度革新。浙江大学联合字节跳动与浙江实验室的研究团队,在arXiv平台发布了一项突破性成果——全球首个统一视频评测基准UniVBench,为评估视频AI系统能力提供了全新标准。这项研究通过构建原创数据集与智能评测体系,揭示了当前主流模型在动态理解、时序一致性等关键维度的技术瓶颈。
传统评测体系长期存在"各自为政"的弊端:视频理解与生成模型采用完全不同的评估标准,如同用不同尺子丈量身高与体重。更严重的是,现有基准多依赖网络公开视频,导致模型在训练阶段可能已接触过测试素材,评测结果可信度大打折扣。研究团队指出,现有基准往往仅关注画面质量或色彩搭配等单一维度,难以全面衡量模型的真实能力。
针对这些痛点,UniVBench构建了包含六大核心任务的评测框架:视频理解、文本生成视频、参考图像生成视频、文本指令编辑、参考图像编辑及视频重构。其中最具创新性的视频重构任务,要求模型先理解视频内容并生成文字描述,再依据描述重建视频。这一过程犹如让画家先观摩作品后闭眼作画,最终通过对比原作与复制品检验其综合实力。测试显示,即便最先进的模型在该任务中得分也未超过63%,暴露出理解到生成环节的信息损耗问题。
为确保评测公正性,研究团队摒弃现有视频资源,自主创作了200个专业级视频素材。这些内容涵盖单镜头与多镜头场景,平均每个视频包含3.72个镜头切换。制作过程采用三重质量控制机制:自动化预筛选、专家组评审与质量专员终检,每个视频平均需2.3次生成尝试才能达标。配套的864张参考图像库,覆盖人物、动物、非生物等六大主体类别,以及现实主义、科幻等六大风格维度。
智能评测系统UniV-eval的引入,使评估过程具备可解释性。该系统将多镜头视频分解为独立单元,针对每个镜头从主体对象、动作表现、镜头运动等21个细分维度进行打分。在人工验证实验中,系统评分与专业评审意见一致性达85%,证明其可靠性。例如在评估"动物挥手"场景时,系统能精准指出多数模型遗漏了"两只动物走向镜头"的关键动作序列。
对12个主流模型的评测结果显示,不同系统呈现显著的能力分化。在视频理解任务中,Gemini 2.5 Pro以54.1%的得分领先,而统一模型Showo-2仅获16.3分;视频生成领域,Seedance-1.0-Pro以77.9%的得分脱颖而出,但所有模型在动作维度普遍表现薄弱。特别在处理"猫进入恐龙窝"这类涉及物体交互的场景时,多数模型无法还原宠物窝嘴巴张开的细节,暴露出时空关系理解的技术短板。
该研究还揭示了长时序一致性的挑战。在多镜头视频生成任务中,模型常出现主体形象不一致问题,如同演员中途"换脸"。与传统指标对比显示,UniV-eval能提供更细粒度的诊断信息:当模型生成的"恐龙窝"缺少嘴巴张开细节时,系统可明确指出这是"物体交互逻辑缺失",而非笼统的"画面质量不足"。这种精准定位为技术改进指明了方向。
目前,研究团队已开源全部代码与数据集,为全球研究者提供基准测试平台。这项成果不仅为模型开发者提供诊断工具,也为行业用户选择视频AI产品提供客观依据。随着统一评测标准的建立,视频AI技术有望突破当前碎片化发展模式,向更均衡、更实用的方向迈进。相关论文可通过arXiv编号2602.21835v1获取完整技术细节。










