DeepSeek团队近日发布了全新开源的OCR模型DeepSeek-OCR 2,该模型专注于将PDF文档精准转换为Markdown格式。相较于初代版本,新模型在视觉标记处理方式上实现了突破性创新,通过引入动态语义重排机制,有效解决了传统模型在复杂版面处理中的逻辑断裂问题。
核心升级在于编码器架构的革新。研发团队摒弃了前代使用的CLIP组件,转而采用轻量化语言模型Qwen2-0.5B构建DeepEncoder V2。这种架构变革赋予编码器因果推理能力,使其能够在视觉标记进入主解码器前,自动完成符合人类阅读习惯的语义重排。实验数据显示,新模型在OmniDocBench v1.5基准测试中达到91.09%的准确率,较基线提升3.73个百分点。
技术实现层面,DeepEncoder V2引入了双流注意力机制。视觉标记采用全局双向注意力,确保每个标记都能获取完整图像信息;新增的因果流查询向量则遵循单向注意力规则,强制每个查询只能关注先前的标记。这种设计构建了独特的两阶段推理流程:编码器阶段完成语义重排,解码器阶段进行自回归推理。通过可学习的查询标记,模型实现了2D空间结构到1D语言序列的平滑转换。
在架构优化方面,模型延续了经典的编码器-解码器结构。视觉分词器采用80M参数的SAM-base架构,配合两层卷积层将输出维度压缩至896维,实现16倍标记压缩。为应对不同分辨率图像,编码阶段设计了灵活的裁剪方案:全局视图生成256个查询标记,局部裁剪针对768×768区域生成144个查询标记。最终输入LLM的标记总数稳定在256至1120之间,与Gemini-1.5 Pro的视觉预算相当。
解码器部分保留了3B参数的MoE结构,实际激活参数约500M。训练流程采用三阶段策略:首先通过下一标记预测任务预训练编码器,随后联合优化编码器与解码器的查询表示,最后冻结编码器专注微调解码器。这种分阶段训练方式在相同算力消耗下实现了更高的数据吞吐量。
基准测试显示,新模型在文档解析编辑距离指标上达到0.100,优于Gemini-3 Pro的0.115。阅读顺序编辑距离从0.085显著降至0.057,证明其视觉信息重排能力。实际生产环境验证中,在线用户日志重复率从6.25%降至4.17%,PDF生产数据重复率从3.69%降至2.88%,充分体现了模型逻辑理解能力的提升。
数据策略方面,研发团队延续了前代80%的OCR相关数据占比,但对数据分布进行关键优化:将正文、公式与表格按3:1:1比例采样,合并语义相似的布局标签。这种调整确保了模型与基准测试的高度一致性,为性能对比提供了可靠基础。
该模型已在GitHub和HuggingFace平台开源,相关技术论文同步发布。这项创新为多模态学习领域提供了新思路,其通过语言模型架构实现视觉编码器优化的路径,为开发统一的全模态编码器奠定了技术基础。











