ITBear旗下自媒体矩阵:

智源研究院发布Video-XL-2:超长视频理解新突破,轻量级模型展现强大实力

   时间:2025-06-03 14:30:51 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

智源研究院携手上海交通大学等科研机构,近期震撼发布了Video-XL-2,一款专为超长视频理解设计的新一代模型。这一创新成果标志着长视频理解技术在开源领域迈入了一个全新的里程碑,为多模态大模型在视频内容深度解析的道路上铺设了坚实的基石。

Video-XL-2的技术架构匠心独运,融合了视觉编码器、动态Token合成模块(DTS)及大语言模型(LLM)三大核心组件。其视觉编码器采用SigLIP-SO400M,能够逐帧解析视频,将每一帧图像转化为高维视觉特征。DTS模块则负责整合这些特征,捕捉其时序动态,提炼出更具意义的视觉信息。这些信息经过平均池化与多层感知机(MLP)的处理,与文本嵌入空间实现精准对齐,最终由Qwen2.5-Instruct大语言模型进行深度理解与推理。

在训练策略上,Video-XL-2采用了循序渐进的四阶段方法。前两阶段侧重于利用图像与视频文本对,初步训练DTS模块并实现跨模态对齐。第三阶段引入更丰富、更高质量的图像与视频描述数据,为模型打下坚实的视觉理解基础。进入第四阶段,模型在大规模、多样化且高质量的图像与视频指令数据上进行精细调优,使其视觉理解能力得到质的飞跃,能够精准响应复杂的视觉指令。

为了提升效率,Video-XL-2还精心设计了效率优化策略。通过分段式预装填策略(Chunk-based Prefilling),将超长视频切割成多个连续片段,每个片段内部采用稠密注意力机制编码,片段间则通过时间戳传递上下文,显著降低了计算与显存成本。同时,双粒度KV解码机制(Bi-granularity KV Decoding)允许模型根据任务需求,灵活加载关键片段的完整KVs,而对次要片段则加载稀疏KVs,有效缩短了推理窗口,提升了解码效率。

在实际应用中,Video-XL-2展现出了惊人的性能。在MLVU、VideoMME和LVBench等长视频评测基准上,它超越了所有现有轻量级开源模型,达到了行业领先水平。尤其在MLVU和LVBench上,Video-XL-2的表现甚至逼近或超越了参数规模高达720亿的大型模型,如Qwen2.5-VL-72B和LLaVA-Video-72B。在时序定位任务中,它在Charades-STA数据集上也取得了卓越成绩,验证了其在多模态视频理解领域的广泛适用性。

Video-XL-2在处理超长视频方面同样表现出色。在消费级显卡(如RTX3090/4090)上,它能处理长达千帧的视频;而在高性能显卡(如A100/H100)上,更是支持万帧级视频输入,远超当前主流开源模型。与VideoChat-Flash和初代Video-XL相比,Video-XL-2不仅大幅提升了视频处理长度,还有效降低了资源需求。

在速度方面,Video-XL-2同样令人瞩目。它仅需12秒即可完成2048帧视频的预填充,且预填充时间与输入帧数呈近似线性增长,展现了极强的可扩展性。相比之下,Video-XL与VideoChat-Flash在处理长视频时的效率明显不及Video-XL-2。

凭借卓越的视频理解能力和高效处理性能,Video-XL-2在影视内容分析、监控视频异常检测、影视作品内容总结及游戏直播内容分析等多个实际应用场景中展现出巨大潜力。它不仅能够快速准确地理解电影情节、回答相关问题,还能在监控视频中及时发现异常行为并发出预警。

目前,Video-XL-2的模型权重已全面向公众开放,项目主页、模型链接及仓库链接均已发布,为更多实际场景的应用提供了可能,进一步推动了长视频理解技术的发展。

项目主页:https://unabletousegit.github.io/video-xl2.github.io/

模型hf链接:https://huggingface.co/BAAI/Video-XL-2

仓库链接:https://github.com/VectorSpaceLab/Video-XL

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version