ITBear旗下自媒体矩阵:

DeepSeek-OCR 2革新登场:用轻量语言模型破解复杂文档转换难题

   时间:2026-01-28 14:39:41 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

DeepSeek团队近日推出全新开源OCR模型DeepSeek-OCR 2,该模型在PDF文档转Markdown格式的任务中展现出突破性进展。相较于初代版本,新模型通过重构视觉编码机制,成功解决了复杂版面文档的语义连贯性问题,在保持轻量化架构的同时实现了性能跃升。

核心升级聚焦于视觉编码器的革新。研发团队摒弃传统"光栅扫描"模式,创新性地将CLIP组件替换为基于Qwen2-0.5B的轻量化语言模型架构。这种改造使编码器具备因果推理能力,能够在输入解码器前对视觉标记进行智能重排。通过引入双流注意力机制,模型既保持了全局视觉信息的完整性,又通过可学习的查询向量实现了语义导向的标记排序。

技术实现层面,新模型采用定制化注意力掩码设计。视觉标记区域运用双向注意力机制确保全局特征捕捉,而附加的因果流查询区域则通过三角注意力掩码实现时序约束。这种两阶段处理流程——先在编码器完成语义重排,再由解码器进行自回归推理——有效弥合了二维空间结构与一维语言模型之间的认知鸿沟。

架构优化贯穿整个处理流程。前端视觉分词器沿用80M参数的SAM-base架构,通过增加两层卷积将输出维度压缩至896,在减少16倍标记量的同时保持特征完整性。编码阶段采用动态裁剪策略,全局视图生成256个查询标记,局部裁剪针对768×768区域生成144个标记,最终输入标记数稳定在256-1120区间,与Gemini-1.5 Pro的视觉预算持平。后端解码器保留3B参数的MoE结构,实际激活参数控制在500M左右。

训练体系采用三阶段渐进式优化。首阶段通过下一标记预测任务完成编码器预训练,使其掌握特征提取与重排序能力;第二阶段冻结视觉分词器,联合优化编码器与解码器的查询表示;最终阶段固定编码器参数,专注解码器微调以提升数据吞吐量。数据策略延续前代配置,但通过采样均衡化将正文、公式、表格的比例调整为3:1:1,同时合并语义相似的布局标签以减少噪声干扰。

在OmniDocBench v1.5基准测试中,新模型取得91.09%的准确率,较基线提升3.73个百分点。阅读顺序编辑距离从0.085降至0.057,文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115)。实际生产环境验证显示,在线用户日志重复率下降33%,PDF生产数据重复率降低22%,充分证明模型在逻辑视觉理解方面的显著进步。

该成果已通过GitHub和HuggingFace平台开源,同步发布的还有详细技术论文。项目地址显示,代码库包含完整的模型实现、训练脚本及预训练权重,为学术界和产业界提供了可直接复用的技术方案。这种开放共享模式延续了DeepSeek团队推动技术普惠的一贯理念,有望加速OCR领域向多模态认知方向的演进。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version