ITBear旗下自媒体矩阵:

苹果SlowFast-LLaVA-1.5模型刷新长视频理解基准,小模型亦展强劲实力

   时间:2025-08-23 22:49:33 来源:IT之家编辑:快讯团队 IP:北京 发表评论无障碍通道
 

苹果公司在AI领域再次迈出重要一步,其研究团队近期宣布开源了SlowFast-LLaVA-1.5长视频多模态大语言模型。这一创新模型在1B、3B、7B参数规模下,均刷新了LongVideoBench、MLVU等基准测试的记录,展现了强大的视频处理和理解能力。

传统大语言模型在处理视频时,往往通过集成视频感知进行预训练,但这种方法存在诸多局限性。例如,模型严重依赖长上下文窗口,导致在处理过程中容易遇到冗余帧问题,超出窗口限制而丢失信息。多阶段训练管道复杂且通常使用私有数据集,难以复现。同时,许多模型仅针对视频任务优化,限制了图像理解能力,降低了模型的通用性。

针对这些局限性,苹果公司推出了SlowFast-LLaVA模型,该模型的最大亮点在于其创新的双流设置。其中,“慢流”负责捕捉场景细节,通过选取少量高分辨率帧实现;而“快流”则负责追踪运动变化,通过选取更多低分辨率帧完成。这一设计有效解决了传统模型在处理视频时的局限。

在SlowFast-LLaVA模型的基础上,苹果公司进一步推出了SlowFast-LLaVA-1.5版本。这一版本通过微调图像模型,增强了视觉推理能力,并联合图像与视频训练,保留了图像理解优势。在设计上,SF-LLaVA-1.5将输入视频帧数固定为128帧,其中快流96帧,慢流32帧,以适应各种时长的视频。虽然这种方法可能在一定程度上牺牲了关键帧的捕捉和播放速度的准确性,但显著降低了计算和显存需求。

经过测试,SlowFast-LLaVA-1.5模型在长视频基准测试LongVideoBench和MLVU上均取得了新纪录,即使1B版本也表现出色,领先于竞争对手。该模型在知识问答、数学推理、OCR等图像相关任务上也展现出了强大的通用理解能力。这一成果不仅证明了苹果公司在AI领域的深厚实力,也为学术界和产业界提供了新的研究和实践方向。

SlowFast-LLaVA-1.5项目完全基于公开数据集进行训练,这为学术界和产业界提供了极大的便利。目前,该模型已在GitHub和Hugging Face平台上开源,方便广大开发者和研究人员下载和使用。这一举措无疑将推动AI领域在视频处理和理解方面的进一步发展。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version