ITBear旗下自媒体矩阵:

DeepSeek-OCR 2革新登场:视觉编码升级,文档识别性能与稳定性双提升

   时间:2026-01-27 19:07:33 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

文档识别领域迎来重要进展,DeepSeek团队正式推出新一代文档识别模型DeepSeek-OCR 2。该模型在继承前代架构优势的基础上,通过创新性的视觉编码器设计,实现了对复杂文档结构更精准的解析能力。

传统视觉语言模型在处理文档图像时,通常采用固定栅格顺序切割视觉元素,这种处理方式虽便于实现,却与人类阅读时的语义跳跃特性存在显著差异。特别是在学术论文、财务报表等版式复杂的场景中,视觉元素间的逻辑关联往往超越空间位置关系,单纯依赖空间顺序的解析方式容易产生理解偏差。

研究团队提出的DeepEncoder V2架构突破了这一局限。该架构通过引入"视觉因果流"机制,使编码器能够动态调整视觉token的处理顺序。具体实现上,系统同时运行双向注意力与因果注意力两种模式:前者负责全局视觉信息感知,后者通过可学习的因果查询token逐步构建语义顺序。这种双重注意力机制确保模型在编码阶段就能完成视觉元素的智能排序。

在架构设计方面,新模型延续了编解码框架但进行了关键优化。编码器先将图像压缩为256-1120个视觉token,经DeepEncoder V2重组语义顺序后,交由基于混合专家架构(MoE)的语言模型解码。这种设计在保持计算效率的同时,将解码负担控制在合理范围内,资源消耗与前代模型基本持平。

性能验证在OmniDocBench v1.5基准测试中进行,该测试集包含中英文学术论文、商业报告等12类文档。实验数据显示,在视觉token数量减少的情况下,新模型整体识别准确率达91.09%,较前代提升3.73个百分点。特别在阅读顺序指标上,编辑距离从0.085优化至0.057,证明其对文档结构的理解能力显著增强。

实际应用表现同样亮眼。生产环境测试显示,在线用户日志图像的重复识别率下降33%(从6.25%降至4.17%),PDF批处理数据的重复率降低22%(从3.69%降至2.88%)。这些改进表明模型在保持高压缩率的同时,有效提升了复杂场景下的处理稳定性。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version