国产开源OCR领域迎来重大突破,百度最新发布的Unlimited OCR模型在长文档处理能力上实现质的飞跃。该模型在权威基准测试OmniDocBench上刷新最高纪录,综合得分超越此前领先的DeepSeek OCR,标志着超长文档识别技术进入全新阶段。
传统OCR系统处理长文档时普遍采用"分页处理+结果拼接"的折中方案,这种模式虽能保证单页识别精度,但会导致上下文断裂、信息丢失等问题。Unlimited OCR创新性地引入参考滑动窗口注意力机制(R-SWA),通过模拟人类抄写员的记忆模式,实现了真正意义上的连续阅读。该机制允许模型在保持完整视觉输入的同时,仅保留最近128个文本Token作为局部参考,有效控制了计算资源的消耗。
技术团队通过构建固定长度的KV Cache队列,解决了长文档处理中的显存膨胀难题。实验数据显示,在解析40页以上文档时,模型仍能维持96.90%的Distinct-35指标,编辑距离控制在0.1069以下。这种稳定性在生成6000个Token时体现得尤为明显,推理速度较传统方案提升35%,延迟波动显著降低。
R-SWA机制的核心创新在于对视觉信息的特殊处理方式。与传统滑动窗口注意力将视觉与文本Token混合更新的模式不同,该机制将视觉编码永久保留在参考池中,仅对文本序列进行滑动更新。这种设计确保了图像信息的完整保留,避免了长距离解码导致的视觉信息衰减,为模型提供了持续稳定的视觉锚点。
在基准测试中,Unlimited OCR在OmniDocBench v1.5和v1.6版本分别取得93.23%和93.92%的综合得分,刷新行业纪录。特别值得注意的是,该模型在长文本场景下展现出独特优势,其性能不随文档长度增加而显著下降,这在金融报告、法律文书等长文档处理领域具有重要应用价值。
这项突破不仅限于OCR领域,其核心的注意力机制创新为长上下文处理提供了全新思路。研究团队正在探索将R-SWA扩展至语音识别、机器翻译等序列处理任务,相关技术路线图显示,未来版本将实现128K上下文解析能力,并构建预填池机制实现历史状态按需调用。
技术实现层面,该模型延续了DeepEncoder高压缩率视觉编码器的设计理念,在解码阶段重点优化长期记忆管理。这种技术传承在GitHub项目文档中得到明确体现,团队特别致谢了DeepSeek OCR和PaddleOCR等先行研究,显示出开源社区的技术迭代特征。
值得注意的是,技术报告作者名单中出现的"YY"缩写引发业界关注。通过分析技术叙事风格、机制设计理念和代码实现细节,有观察者推测该核心贡献者可能来自知名OCR研究团队。这种技术传承关系在模型架构选择上体现得尤为明显,从视觉编码到注意力机制的设计都延续了特定技术路线的发展脉络。
项目开源地址显示,该模型已提供完整代码和预训练权重,支持在HuggingFace平台直接调用。这种开放态度将加速长文档处理技术的普及,特别是在金融、法律、出版等需要处理大量结构化文档的领域,该技术有望推动文档智能化处理进入新阶段。










