百度智能云千帆平台近日宣布,面向企业级多模态应用场景的全新视觉理解大模型Qianfan-VL正式开源。该系列模型包含3B、8B、70B三种参数规格,通过深度优化设计,在基础通用能力与产业垂直场景中均展现出显著优势。目前8B与70B版本已开放免费体验,企业用户和开发者可在10月10日前登录平台进行试用。
研发团队基于开源架构进行创新开发,依托百度自研的昆仑芯P800芯片构建了超大规模分布式计算系统。该系统支持单任务5000卡并行计算,通过优化并行策略与算子设计,显著提升了模型处理复杂算法与海量数据的效率。这种软硬件协同的创新模式,使模型在通用与垂类任务评测中均达到行业领先水平。
模型设计采用四阶段能力增强训练方案,在保持通用性能的同时,针对产业落地需求进行专项强化。通过构建覆盖文档识别、数学解题、图表理解等核心任务的高精度数据合成管线,实现了高质量训练数据的规模化生产。这种训练策略使模型参数规模与性能呈现显著正相关,70B版本在专业领域问答中展现出更强的推理能力。
在OCR全场景识别方面,模型可精准处理手写体、数学公式、自然场景文字等多种类型,并能对卡证票据进行结构化信息提取。复杂版面文档理解能力尤为突出,可自动解析表格图表、实现文档智能问答与结构化解析。基准测试显示,其在OCRBench等专业评测中的表现随参数规模提升持续优化,为金融、医疗等领域的文档处理提供了高效解决方案。
8B与70B版本特有的思维链激活功能,通过特殊token设计支持复杂场景的组合推理。在数学解题领域,模型可实现几何推理、公式识别与分步求解;在图表分析方面,能完成数据趋势预测、关联推理及统计计算。测试数据显示,这两个版本在MathVista-mini等数学视觉基准测试中的准确率较主流模型有显著提升。
该系列模型的多尺寸设计充分考虑到不同规模企业的应用需求。3B版本适用于轻量级部署场景,8B版本在性能与效率间取得平衡,70B版本则能满足高精度要求的复杂任务。这种分级设计使教育、金融、工业等领域的用户都能找到适配方案,有效降低了企业应用AI技术的门槛。
目前,模型已在OCR识别、文档理解等场景形成典型应用案例。在票据处理场景中,可自动提取关键信息并完成结构化录入;在学术文档分析场景,能精准解析复杂版面并支持智能问答。研发团队透露,后续将持续优化视频理解、三维场景解析等能力,推动模型在更多产业领域的深度应用。