在视频理解领域,北大与UCSD联合团队提出了一项创新框架——VideoOrion,其论文被国际计算机视觉顶会ICCV 2025以高分接收。该研究针对现有Video-LLM模型依赖下采样或特征聚合导致细节丢失、语义纠缠的问题,提出将视频中前景物体的时空动态显式编码为“对象令牌”(Object Tokens),并与背景上下文令牌(Context Tokens)并行输入大语言模型(LLM),构建出兼具高效性与可解释性的视频理解系统。
传统方法通常将视频帧分割为空间网格或聚合特征生成令牌,但这种处理方式容易混淆不同物体的语义信息。VideoOrion的创新之处在于,它将视频中的对象及其跨帧演化视为独立语义单元,通过“检测-分割-跟踪”三步流水线提取对象动态。具体而言,系统首先利用通用检测模型GroundingDINO在关键帧生成候选框,再通过分割模型SAM细化对象掩码,最后用跨帧跟踪器XMem生成随时间变化的掩码序列。这些掩码经过特征池化与投影后,形成语义解耦的Object Tokens,每个令牌对应一个独立物体的动态信息。
在双分支编码架构中,Context Tokens分支采用CLIP或SigLIP模型对采样帧进行编码,生成承载背景与场景信息的上下文令牌;Object Tokens分支则通过上述流水线提取对象级动态。两类令牌被并行输入LLM进行融合推理,使模型既能捕捉全局场景信息,又能聚焦关键对象的细节变化。例如,在描述“红色三轮滑板车”时,模型不仅能识别其颜色与类型,还能解析“拖地组件”等细节;在分析动作场景时,可精确分解“黑色泳装跳板后空翻”中的动作要素。
实验表明,VideoOrion在MVBench、EgoSchema、Perception-Test等五大基准测试中全面超越同规模模型。以7B参数版本为例,其在MVBench上的准确率达63.5%,较VideoLLaMA2提升10.1%;在EgoSchema上得分65.1,涨幅达14.6%。特别在视频指代任务中,该框架展现出独特优势:通过在提示模板中填入目标对象对应的令牌,即可直接回答“这个物体在做什么”等问题。在VideoRef45K数据集上,经少量微调后,其BLEU@4、METEOR等指标均显著优于Artemis、Merlin等现有方法。
研究团队通过消融实验验证了设计合理性:移除对象分支会导致性能全面下降;预训练对象分支可提升模型表现,说明对象令牌需先学习基础语义再与文本对齐;令牌数量控制在64个时模型最稳定,过多会分散注意力。流水线组件替换实验显示,RAM++自适应分段策略与XMem跟踪器的组合效果最佳,较均匀分段或SAM2跟踪均有明显优势。
尽管VideoOrion在性能上取得突破,但研究也指出其局限性:引入专用视觉模型带来约38.5%的时延开销,低质量视频可能导致掩码不准确;当前仍依赖视频分支提供上下文,对象-场景融合机制需进一步优化。该框架通过结构化重写视频语义,为视频问答、机器人感知等任务提供了新范式,其双视角编码思路或推动多模态领域向更精细化的方向发展。











