ITBear旗下自媒体矩阵:

DeepSeek-OCR 2模型革新:AI智能排序视觉内容 精准“读透”复杂文档

   时间:2026-01-28 03:00:20 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

DeepSeek团队近日宣布开源新一代文字识别模型DeepSeek-OCR 2,并同步发布技术论文《DeepSeek-OCR 2: Visual Causal Flow》。该模型通过引入动态视觉处理机制,在复杂文档解析任务中展现出显著优势,尤其在中文场景下实现了关键技术突破。

传统视觉语言模型采用固定栅格顺序处理图像,将画面切割为视觉token后按从左到右、从上到下的路径输入神经网络。这种处理方式虽实现简单,却与人类阅读习惯存在本质差异——人类在解读文档时,会基于语义关联和逻辑关系进行跳跃式信息捕捉,而非机械遵循空间坐标。DeepSeek团队通过重构编码器架构,使模型能够自主分析视觉元素的因果关系,构建符合认知规律的动态处理路径。

新型DeepEncoder V2编码器是该模型的核心创新。该结构通过引入注意力机制,使模型在识别文字前先对视觉内容进行语义排序。例如在解析数学公式时,模型会优先定位主运算符,再按运算优先级处理相关数字和符号;处理表格时则能自动识别表头与数据行的对应关系。这种处理方式突破了传统模型对空间坐标的依赖,在版式复杂的文档场景中表现尤为突出。

在OmniDocBench v1.5基准测试中,研究团队设置了严苛的对比条件:将视觉token数量上限降低15%的情况下,新模型仍取得91.09%的综合得分,较前代提升3.73个百分点。具体到关键指标,阅读顺序准确度(编辑距离)从0.085优化至0.057,意味着模型对文档结构的理解更接近人类认知模式。测试样本覆盖学术论文、财务报表、法律文书等12类中英文文档,充分验证了模型的泛化能力。

技术文档显示,动态路径规划机制通过三阶段实现:首先利用轻量化网络提取视觉特征,再通过图神经网络构建元素关联图谱,最后采用强化学习算法优化处理顺序。这种分层设计使模型在保持高效的同时,具备处理超长文档的能力。开发团队特别强调,中文文档的复杂版式对模型提出更高要求,新架构通过引入笔画顺序先验知识,显著提升了汉字识别准确率。

目前,DeepSeek-OCR 2的源代码和预训练权重已向学术界和产业界开放。开发者可通过GitHub获取完整工具包,支持快速部署于文档数字化、智能办公、金融风控等场景。测试数据显示,在同等硬件条件下,新模型处理速度较前代提升22%,内存占用减少18%,为移动端部署创造了可能。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version