阿里国际数字贸易集团旗下的AI研发团队AIDC-AI,近期隆重推出了其最新的多模态大语言模型——Ovis2.5。此次发布包含了9B和2B两种参数规模版本,专为经济型视觉推理应用而生,树立了多模态AI领域的新典范。
Ovis2.5在性能表现上尤为突出,得益于其独特的核心功能设计。首先,该模型引入了NaViT视觉编码器,实现了原生分辨率感知,无需牺牲图像细节即可捕捉全局结构,保证了视觉处理的高品质。这一特性使得Ovis2.5在处理复杂图像信息时游刃有余。
Ovis2.5还具备深度推理能力,其可选的“思考模式”可能借鉴了阿里Qwen3的先进技术。该模式不仅支持线性思维链推理,还能进行自我校验和修正,用户可根据需求配置思考预算,从而提高了问题解决的准确性和效率。这一创新设计,无疑为Ovis2.5增添了强大的智力支持。
在OCR领域,Ovis2.9B和2B版本均展现出卓越性能,尤其在复杂图表分析、文档理解(涵盖表格和表单)方面,达到了业界领先水平。这一特性为众多实际应用场景提供了强有力的技术支撑,如文档自动化处理、数据分析等。
Ovis2.5在图像推理、视频理解和视觉定位等多个基准测试中同样表现优异,充分展示了其强大的通用多模态处理能力。这一全面而强大的功能集,使得Ovis2.5在多模态AI应用中具有极高的实用价值。
AIDC-AI此次发布Ovis2.5,不仅彰显了其在多模态AI技术领域的持续创新能力,也为开发者和企业用户带来了一种高效且易于部署的解决方案。尤其对于那些需要结合视觉与文本推理的应用场景,Ovis2.5无疑是一个理想的选择。
目前,Ovis2.5已在GitHub和Hugging Face等平台开源,这一举措将进一步促进全球AI社区的协作与创新,推动多模态大语言模型技术的快速发展。
Ovis2.5的发布,标志着AIDC-AI在Ovis系列模型研发上取得了又一重大突破,为多模态大语言模型的发展注入了强劲动力。