ITBear旗下自媒体矩阵:

百度“无限OCR”突破:AI像人类抄书般高效,长文档处理一键搞定

   时间:2026-06-26 04:24:31 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

百度研究团队近日在计算机视觉领域取得重要进展,其开发的“无限OCR”系统突破了传统光学字符识别技术在处理长文档时的性能瓶颈。该系统通过创新设计的“参考滑动窗口注意力”机制,实现了处理速度与输出长度无关的突破性表现,相关论文已发布于预印本平台arXiv,代码和模型权重同步开源。

传统OCR系统在处理长文档时面临双重困境:全注意力机制需要保存所有历史输出作为参考,导致内存占用随文本长度线性增长;线性注意力机制虽能控制内存,但会逐步模糊原始图像信息。百度团队提出的R-SWA机制巧妙解决了这对矛盾——系统始终完整保留原始图像的视觉编码,同时仅对最近生成的128个字符建立滑动窗口参考。这种设计使内存占用恒定在图像编码与固定窗口大小之和,彻底消除了输出长度对处理速度的影响。

技术实现的关键在于深度编码器与MoE架构的协同创新。研究团队沿用并优化了DeepSeek OCR的深度编码器,通过融合SAM-ViT的局部细节捕捉能力与CLIP-ViT的全局语义理解能力,将1024×1024分辨率的文档图像压缩为256个视觉词元,压缩率达16倍且信息损失极小。后端采用30亿参数的MoE语言模型,实际运算时仅激活约5亿参数,在保证识别精度的同时大幅降低计算开销。整个系统的注意力层全部替换为R-SWA机制,确保解码过程始终维持恒定内存占用。

在OmniDocBench基准测试中,新系统展现出显著优势。对比基线模型DeepSeek OCR,其综合识别准确率从87.01%提升至93.23%,文字编辑距离降低47.9%,公式识别准确率提高11.1%。特别在长文档处理场景下,系统在512路并发测试中达到每秒5580词元的处理速度,较传统模型提升12.7%。当输出长度扩展至6144词元时,速度优势扩大至35%,且未出现传统模型因KV缓存扩容导致的性能骤降现象。

多页文档专项测试验证了系统的实际处理能力。在包含20页学术论文的测试集中,文字编辑距离维持在0.087,生成文本的35字组合独特性达98.2%;处理40页小说时,虽然小字体识别误差有所上升,但Distinct-35指标仍保持96.9%,未出现长序列常见的重复输出问题。研究团队指出,当前性能瓶颈主要来自图像分辨率限制,而非注意力机制设计缺陷。

该技术的突破性不仅体现在性能指标上,更在于其设计理念对传统AI架构的革新。R-SWA机制通过分离原始信息与生成内容的更新机制,为需要长序列建模的任务提供了新范式。研究团队已验证该机制在表格结构提取、阅读顺序预测等复杂文档解析任务中的普适性,并计划将其扩展至自动语音识别、机器翻译等领域。

目前,研究团队正着手开发支持128K上下文长度的升级版本,通过构建“前缀池”机制实现真正意义上的无限文档处理。这项技术有望重塑文档数字化工作流程,使整本书籍扫描、多页合同转换等场景实现真正的“一键处理”。完整技术细节可通过arXiv编号2606.23050查阅,代码与模型权重已在GitHub平台开放下载。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version