ITBear旗下自媒体矩阵:

苹果SlowFast-LLaVA-1.5模型刷新长视频理解基准,小模型亦展强劲实力

   时间:2025-08-23 19:00:30 来源:IT之家编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近日,科技新闻界传来消息,苹果公司的研究团队在视频处理与大语言模型领域取得了重大进展。他们宣布开源了一款名为SlowFast-LLaVA-1.5的长视频多模态大语言模型,该模型在1B、3B、7B参数规模下,均刷新了LongVideoBench、MLVU等权威基准测试的记录。

据悉,当前的大语言模型在处理视频时,通常采用在AI预训练中集成视频感知的方法。然而,这种方法存在三大局限性:首先,模型严重依赖长上下文窗口,处理过程中易遇到大量冗余帧,导致信息丢失;其次,训练过程复杂,多阶段训练管道的使用以及私有数据集的依赖,使得结果难以复现;最后,许多模型仅针对视频任务进行优化,这限制了它们在图像理解方面的能力,降低了模型的实用性。

针对这些局限性,苹果公司推出了SlowFast-LLaVA开源模型。该模型的最大亮点在于其创新的双流设置,即“慢流”与“快流”。慢流负责捕捉场景细节,选取少量高分辨率帧;而快流则负责追踪运动变化,选取更多低分辨率帧。这一设计有效提升了模型对视频内容的理解和处理能力。

在此基础上,苹果进一步推出了SlowFast-LLaVA-1.5版本。该版本通过微调图像模型,增强了视觉推理能力,并联合图像与视频训练,保留了图像理解的优势。在设计上,SF-LLaVA-1.5将输入视频帧数固定为128帧,其中快流96帧,慢流32帧,这一设计使得模型能够适配各种时长的视频。虽然这种方法可能会漏掉一些关键帧或影响播放速度的判断,但显著降低了计算和显存需求。

经过测试,SlowFast-LLaVA-1.5模型在长视频基准测试LongVideoBench和MLVU上均取得了新纪录,即使是1B版本的模型也表现出色,领先于竞争对手。该模型在知识问答、数学推理、OCR等图像相关任务上也展现出了卓越的性能,实现了视频与图像的通用理解能力。

SlowFast-LLaVA-1.5项目完全基于公开数据集进行训练,这为学术界和产业界的复现提供了极大的便利。目前,该模型已在GitHub和Hugging Face平台上开源,供全球开发者和研究人员使用和研究。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version