ITBear旗下自媒体矩阵:

百度智能云千帆开源Qianfan-VL视觉模型,多尺寸适配,全自研芯片赋能高效计算

   时间:2025-09-23 03:25:42 来源:小AI编辑:快讯 IP:北京 发表评论无障碍通道
 

百度智能云千帆平台近日宣布,其自主研发的全新视觉理解大模型Qianfan-VL正式开源,并同步推出3B、8B、70B三个参数规模的版本。该系列模型专为企业级多模态应用场景设计,在基础通用能力的基础上,针对OCR识别、教育垂直领域等高频需求进行了深度优化,旨在为不同规模的企业和开发者提供更高效的视觉理解解决方案。

Qianfan-VL系列模型的开发依托于百度自研的昆仑芯P800芯片,该芯片为模型提供了强大的算力支持,能够高效处理海量数据与复杂算法。模型研发团队基于开源模型进行二次开发,并在昆仑芯P800上完成了全流程计算任务。这一技术组合不仅优化了计算效率,还使模型在通用和垂类任务评测中达到了行业领先水平。

在模型设计上,Qianfan-VL采用了先进的多模态架构,并通过持续预训练和三大技术创新实现了领域增强的通用视觉-语言能力。其核心训练方案包括创新的四阶段策略,在保持通用能力的同时,显著提升了领域特定任务的表现。团队构建了面向多模态任务的大规模数据合成管线,覆盖文档识别、数学解题、图表理解等核心任务,为模型训练提供了高质量的数据支持。

Qianfan-VL系列模型具有三大显著特点。首先,多尺寸版本设计满足了不同场景的需求,3B、8B、70B三种规格可适配从轻量级到企业级的各类应用。其次,8B和70B模型支持通过特殊token激活思维链能力,能够处理复杂图表理解、视觉推理、数学解题等任务。最后,模型在OCR全场景识别和复杂版面文档理解方面表现突出,可精准识别手写体、数学公式、自然场景文字,并实现文档智能问答与结构化解析。

在性能评测中,Qianfan-VL系列模型展现了卓越的实力。通用能力基准测试显示,随着参数规模的增加,模型在视觉理解、专业领域问答等任务中的表现显著提升,尤其在ScienceQA等专业问答测试中表现突出。在OCR与文档理解领域,模型在OCRBench等基准测试中成绩优异,能够自动分析版面元素,精准解析表格和图表。数学解题方面,8B和70B模型在MathVista-mini、MathVision等测试中表现亮眼,可实现几何推理、公式识别和分步求解。

实际应用案例进一步验证了Qianfan-VL的实用性。在OCR识别场景中,模型可精准提取卡证票据信息并完成结构化处理;在数学推理场景中,能够从复杂图表中提取关键信息并进行数据分析;在文档理解场景中,可自动解析表格和图表,实现智能问答。模型还可应用于图表分析、视频理解等领域,展现出广泛的适应性。

目前,Qianfan-VL系列模型已全面开源。即日起至10月10日,用户可在百度智能云千帆平台免费体验8B和70B版本。模型的相关资源包括Blog、GitHub主页、Hugging Face页面以及技术报告,用户可通过登录平台选择Qianfan-VL-8B或70B进行在线测试,或访问GitHub获取详细技术文档。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version