ITBear旗下自媒体矩阵:

阿里国际Ovis2.5多模态大模型发布,提升视觉感知与深度推理能力

   时间:2025-08-26 20:29:16 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

阿里国际近期揭晓了其最新研发的多模态大模型Ovis2.5,并慷慨地向公众开放了源代码。这款模型专注于提升视觉感知的原始分辨率、深化逻辑推理能力,并优化成本效益高的场景设计,旨在拓宽人工智能技术的应用边界。在权威的多模态评估平台OpenCompass上,Ovis2.5相较于其前身Ovis2,综合评分实现了显著飞跃,巩固了其在同类开源模型中的领先地位。

此次推出的Ovis2.5包含两个参数规模各异的版本,以满足不同需求。其中,Ovis2.5-9B版本在OpenCompass测试中取得了78.3的高分,这一成绩甚至超越了众多参数量更为庞大的模型,稳居40B以下参数规模开源模型榜首。而Ovis2.5-2B版本则以73.9的综合得分,秉承了Ovis系列“小体积、大效能”的设计理念,尤其适合在终端设备及资源受限环境下应用。

在模型架构层面,Ovis2.5进行了全面革新,主要体现在结构化嵌入对齐设计、视觉特征提取、视觉与文本结构对齐以及强大的语言处理能力三大核心组件上。该模型延续了系列的创新理念,通过动态分辨率的视觉特征提取技术,结合视觉词表模块,实现了视觉与文本信息的精准对齐,并以Qwen3为基础,提升了语言处理能力。

训练策略方面,Ovis2.5采用了更为精细的五阶段训练流程,涵盖了基础视觉预训练、多模态预训练及大规模指令微调等多个关键环节。通过引入DPO和GRPO等算法,增强了模型的偏好对齐和推理能力,从而显著提升了整体性能。模型的训练速度也实现了端到端3至4倍的加速。

在数据工程领域,Ovis2.5的数据量相较于Ovis2增长了50%,重点聚焦于视觉推理、图表解析、OCR(光学字符识别)以及Grounding等关键应用场景。特别是为了与Qwen3深度适配,合成了大量“思考”数据,这一举措极大地激发了模型的反思与推理潜能。

目前,Ovis2.5的代码和模型资源已在GitHub和Hugging Face等平台上线,用户可自由访问这些平台,获取相关资源,并探索Ovis2.5在更多领域的应用潜力。

获取代码:https://github.com/AIDC-AI/Ovis

获取模型:https://huggingface.co/AIDC-AI/

亮点速览:

✨ Ovis2.5在OpenCompass评测中斩获78.3高分,持续引领SOTA潮流。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version