ITBear旗下自媒体矩阵:

百度开源Unlimited OCR模型引关注,疑似DeepSeek核心大神助力创佳绩

   时间:2026-06-23 01:51:14 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

百度近日低调开源了一款名为Unlimited OCR的模型,其总参数仅30亿,实际激活参数仅500M,却在文档解析领域展现出惊人的性能。在OmniDocBench v1.5基准测试中,该模型以93.23%的综合得分刷新端到端OCR的纪录,在v1.6版本中更将成绩提升至93.92%,远超参数规模大数十倍的Qwen3-VL和Gemini-2.5 Pro等知名模型。

传统OCR模型在处理长文档时普遍存在"逐页失忆"问题,即每处理完一页就清空上下文记忆,导致跨页信息丢失。这种技术瓶颈源于标准注意力机制下KV缓存随输出长度指数级增长,迫使模型不得不牺牲连贯性来维持运行效率。百度研发团队通过模拟人类抄书时的认知模式,提出革命性的参考滑动窗口注意力机制(R-SWA),成功突破这一技术困局。

R-SWA机制的创新性在于其"全局可见、局部记忆"的设计理念。在视觉输入端,模型始终保持对完整文档图像的全面感知;在文本输出端,则仅保留最近128个token的上下文记忆。这种设计使KV缓存形成固定容量的队列结构,无论处理多长的文档,内存占用始终保持恒定。测试数据显示,该模型在输出6144个token时,处理速度比同类模型快35%,且内存占用不随文档长度增加。

支撑Unlimited OCR性能的另一核心技术是DeepEncoder视觉压缩模块。该模块能将1024×1024分辨率的PDF页面压缩至256个视觉token,压缩率达16倍。这种极致压缩不仅没有损失关键信息,反而通过减少冗余数据提升了模型的处理效率。配合R-SWA机制,模型在标准32K上下文窗口内,可一次性完成数十页文档的完整解析。

在具体性能指标上,Unlimited OCR展现出全方位优势。处理20页文档时,其转录结果与原文的编辑距离仅0.057;即使输入超过40页,该指标仍控制在0.11以下。在重复内容检测中,Distinct-35指标高达97%,证明模型能有效避免机械性复读。在文本、公式、表格等九类文档的细分测试中,该模型在七项指标上领先同类产品,特别是在阅读顺序理解和复杂公式识别方面表现突出。

技术文档中一个引人注目的细节是作者署名方式。项目核心成员包括Youyang Yin、Huanhuan Liu和技术总监YY,其中技术总监采用双字母缩写署名。行业观察者通过对比技术路线和人员履历发现,YY的真实身份很可能是前DeepSeek OCR团队负责人魏浩然。这位曾主导开发GOT-OCR2.0和DeepSeek-OCR系列的技术专家,其研究风格与Unlimited OCR展现出的系统化创新特征高度吻合。

此次开源的Unlimited OCR模型已同步上线GitHub和HuggingFace平台,包含完整代码和预训练权重。该项目的推出标志着OCR技术从工程优化阶段向认知架构创新阶段跃迁,其采用的R-SWA机制被技术文档描述为"通用解析任务的免费午餐",暗示百度可能将该技术扩展至语音识别、机器翻译等领域。当前模型已展示出理解整本书内容的潜力,研发团队正在探索将上下文窗口扩展至128K的技术路径。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version