ITBear旗下自媒体矩阵:

面壁智能开源MiniCPM-V 4.5,8B参数多模态模型刷新视频理解能力

   时间:2025-08-28 02:28:26 来源:IT之家编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近日,面壁智能公司宣布了一项重大技术突破,正式开源了其最新研发的多模态旗舰模型——MiniCPM-V 4.5。这款模型拥有8B参数,最为引人注目的是其行业首创的“高刷”视频理解能力。

MiniCPM-V 4.5的这一创新,使得模型能够从“看PPT”转变为真正理解“动态画面”,对于一闪而过的画面也能捕捉得更加精准和细致。在MotionBench和FavorBench这两项衡量高刷视频理解能力的榜单中,MiniCPM-V 4.5不仅达到了同尺寸模型的最优水平,还超越了拥有72B参数的Qwen2.5-VL模型,展现了其越级领先的实力。

MiniCPM-V 4.5在图片理解、复杂文档识别等多模态能力上也同样表现出色。在OpenCompass测评中,该模型领先众多闭源模型,包括GPT-4o、GPT-4.1和Gemini-2.0-Pro等,甚至在图片理解性能上超越了Qwen2.5-VL 72B。在视频理解方面,MiniCPM-V 4.5在LVBench、MLVU、Video-MME和LongVideoBench等多个榜单中均取得了同级最佳水平。在复杂文档识别任务中,该模型在OmniDocBench榜单的OverallEdit、TextEdit和TableEdit三项指标上,也均达到了通用多模态模型同级别的最优表现。

MiniCPM-V 4.5还支持常规模式和深度思考模式两种运行方式,实现了性能与响应速度的完美平衡。在常规模式下,该模型能够在绝大多数场景下提供卓越的多模态理解能力;而在深度思考模式下,则专注于应对复杂与复合型推理任务。在VideoMME视频理解榜单以及单图OpenCompass测试中,MiniCPM-V 4.5均达到了同级最优水平,并且在显存占用、平均推理时间等方面也实现了领先。特别是在覆盖短、中、长三种类型的视频理解评测集Video-MME上,MiniCPM-V 4.5采用3帧打包策略进行推理,时间开销仅为同级模型的十分之一。

目前,MiniCPM-V 4.5模型已经正式在Github、Hugging Face和ModelScope等平台上开源,供开发者们免费使用和探索。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version