人工智能领域迎来重要突破,DeepSeek团队正式开源新一代OCR模型DeepSeek-OCR2。该模型通过引入革命性的DeepEncoder V2视觉编码架构,实现了从传统固定扫描模式向语义驱动的因果推理范式的转变,在文档解析任务中展现出接近人类阅读逻辑的处理能力。
传统视觉语言模型普遍采用光栅扫描方式处理图像,这种将二维图像强制转换为一维序列的方法,导致模型难以捕捉图像中的语义结构。DeepSeek-OCR2通过构建具备因果推理能力的视觉编码器,使模型能够根据内容逻辑动态调整处理顺序。实验数据显示,新模型在OmniDocBench基准测试中取得91.09%的综合得分,较前代提升3.73%,同时在阅读顺序编辑距离指标上从0.085优化至0.057,证明其处理复杂版面的逻辑性显著增强。
DeepEncoder V2架构的创新性体现在双模块协同设计:视觉分词器沿用SAM-base架构配合卷积层,将图像转化为视觉标记;作为核心的Qwen2-0.5B语言模型则引入可学习的查询标记。通过独特的注意力掩码机制,视觉标记间保持双向注意力以维持全局感知,查询标记间采用因果注意力确保处理顺序的合理性。这种设计使模型在编码阶段即完成信息重组,为后续解码器提供结构化的语义序列。
在资源效率方面,新模型展现出显著优势。测试表明,使用256-1120个视觉标记时,DeepSeek-OCR2在保持高压缩率的同时,文档解析编辑距离达到0.100,优于Gemini-3 Pro的0.115。实际生产环境测试显示,该模型使在线用户日志图像的OCR结果重复率从6.25%降至4.17%,PDF数据处理重复率从3.69%降至2.88%,为大规模数据清洗提供了更精准的工具。
技术团队强调,DeepEncoder V2验证了语言模型作为视觉编码器的可行性。这种架构设计为多模态统一处理开辟了新路径——通过更换不同模态的查询嵌入,同一编码器即可处理文本、图像、音频等多种数据类型。研究指出,当前光学字符识别仍是大模型时代最具实用价值的视觉任务,但这项突破为构建原生多模态智能系统奠定了重要基础。











