阿里国际近期揭晓了其最新研发的多模态大模型Ovis2.5,并慷慨地向公众开放了源代码。这款模型专注于提升视觉感知的原始分辨率、深化逻辑推理能力,并优化成本效益高的场景设计,旨在拓宽人工智能技术的应用边界。在权威的多模态评估平台OpenCompass上,Ovis2.5相较于其前身Ovis2,综合评分实现了显著飞跃,巩固了其在同类开源模型中的领先地位。
此次推出的Ovis2.5包含两个参数规模各异的版本,以满足不同需求。其中,Ovis2.5-9B版本在OpenCompass测试中取得了78.3的高分,这一成绩甚至超越了众多参数量更为庞大的模型,稳居40B以下参数规模开源模型榜首。而Ovis2.5-2B版本则以73.9的综合得分,秉承了Ovis系列“小体积、大效能”的设计理念,尤其适合在终端设备及资源受限环境下应用。
在模型架构层面,Ovis2.5进行了全面革新,主要体现在结构化嵌入对齐设计、视觉特征提取、视觉与文本结构对齐以及强大的语言处理能力三大核心组件上。该模型延续了系列的创新理念,通过动态分辨率的视觉特征提取技术,结合视觉词表模块,实现了视觉与文本信息的精准对齐,并以Qwen3为基础,提升了语言处理能力。
训练策略方面,Ovis2.5采用了更为精细的五阶段训练流程,涵盖了基础视觉预训练、多模态预训练及大规模指令微调等多个关键环节。通过引入DPO和GRPO等算法,增强了模型的偏好对齐和推理能力,从而显著提升了整体性能。模型的训练速度也实现了端到端3至4倍的加速。
在数据工程领域,Ovis2.5的数据量相较于Ovis2增长了50%,重点聚焦于视觉推理、图表解析、OCR(光学字符识别)以及Grounding等关键应用场景。特别是为了与Qwen3深度适配,合成了大量“思考”数据,这一举措极大地激发了模型的反思与推理潜能。
目前,Ovis2.5的代码和模型资源已在GitHub和Hugging Face等平台上线,用户可自由访问这些平台,获取相关资源,并探索Ovis2.5在更多领域的应用潜力。
获取代码:https://github.com/AIDC-AI/Ovis
获取模型:https://huggingface.co/AIDC-AI/
亮点速览:
✨ Ovis2.5在OpenCompass评测中斩获78.3高分,持续引领SOTA潮流。