百度智能云千帆平台近日迎来重要突破——全新视觉理解大模型Qianfan-VL正式开源,并同步推出3B、8B、70B三个参数规模的版本。这款专为企业级多模态应用场景设计的模型,在OCR识别、文档理解等产业高频需求领域实现了专项优化,其8B和70B版本即日起至10月10日可在千帆平台免费体验。
研发团队采用四阶段创新训练策略,构建了覆盖文档识别、数学解题等核心任务的高精度数据合成管线。基于百度自研的昆仑芯P800芯片,该模型实现了单任务5000卡规模的并行计算能力,在视觉理解通用能力评测中展现出显著优势。从ScienceQA专业问答到RefCOCO多模态任务,模型性能随参数规模提升呈现良好Scaling趋势,在物体识别、关联分析等维度达到行业领先水平。
针对企业级应用痛点,模型特别强化了三大核心能力:其一,提供3B、8B、70B多尺寸选择,满足不同规模企业的部署需求;其二,8B和70B版本通过特殊token激活思维链功能,可处理复杂图表分析、视觉推理等场景;其三,在OCR全场景识别方面,不仅能精准解析手写体、数学公式,还能对卡证票据进行结构化提取。在文档理解领域,模型可自动分析版面元素,实现表格图表解析与智能问答。
基准测试数据显示,Qianfan-VL在数学解题领域表现尤为突出。8B和70B版本通过融合视觉与文本推理数据,在MathVista-mini等测试中取得优异成绩,可实现几何推理、公式识别等复杂任务的分步求解。在文档处理场景,模型在OCRBench等专业测试中的准确率随参数规模提升持续优化,为金融、教育等行业的文档智能化提供了高精度解决方案。
技术架构层面,研发团队构建了业界领先的分布式计算系统。通过创新的并行策略与算子优化,昆仑芯P800芯片组成功支撑起超大规模模型训练,使数据处理效率得到显著提升。这种软硬协同的创新模式,不仅优化了计算资源利用率,更为模型在垂类任务中的性能突破奠定了基础。
目前,该模型已在OCR识别、文档解析等场景形成典型应用案例。除已展示的票据结构化提取、复杂版面分析等功能外,模型在图表数据可视化、视频内容理解等延伸领域也展现出良好适应性。随着开源版本的发布,百度智能云千帆平台正通过技术赋能推动AI在产业界的深度落地。