百度“无限OCR”突破：AI像人类抄书般高效，长文档处理一键搞定

时间：2026-06-26 04:24:31 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

百度研究团队近日在计算机视觉领域取得重要进展，其开发的“无限OCR”系统突破了传统光学字符识别技术在处理长文档时的性能瓶颈。该系统通过创新设计的“参考滑动窗口注意力”机制，实现了处理速度与输出长度无关的突破性表现，相关论文已发布于预印本平台arXiv，代码和模型权重同步开源。

传统OCR系统在处理长文档时面临双重困境：全注意力机制需要保存所有历史输出作为参考，导致内存占用随文本长度线性增长；线性注意力机制虽能控制内存，但会逐步模糊原始图像信息。百度团队提出的R-SWA机制巧妙解决了这对矛盾——系统始终完整保留原始图像的视觉编码，同时仅对最近生成的128个字符建立滑动窗口参考。这种设计使内存占用恒定在图像编码与固定窗口大小之和，彻底消除了输出长度对处理速度的影响。

技术实现的关键在于深度编码器与MoE架构的协同创新。研究团队沿用并优化了DeepSeek OCR的深度编码器，通过融合SAM-ViT的局部细节捕捉能力与CLIP-ViT的全局语义理解能力，将1024×1024分辨率的文档图像压缩为256个视觉词元，压缩率达16倍且信息损失极小。后端采用30亿参数的MoE语言模型，实际运算时仅激活约5亿参数，在保证识别精度的同时大幅降低计算开销。整个系统的注意力层全部替换为R-SWA机制，确保解码过程始终维持恒定内存占用。

在OmniDocBench基准测试中，新系统展现出显著优势。对比基线模型DeepSeek OCR，其综合识别准确率从87.01%提升至93.23%，文字编辑距离降低47.9%，公式识别准确率提高11.1%。特别在长文档处理场景下，系统在512路并发测试中达到每秒5580词元的处理速度，较传统模型提升12.7%。当输出长度扩展至6144词元时，速度优势扩大至35%，且未出现传统模型因KV缓存扩容导致的性能骤降现象。

多页文档专项测试验证了系统的实际处理能力。在包含20页学术论文的测试集中，文字编辑距离维持在0.087，生成文本的35字组合独特性达98.2%；处理40页小说时，虽然小字体识别误差有所上升，但Distinct-35指标仍保持96.9%，未出现长序列常见的重复输出问题。研究团队指出，当前性能瓶颈主要来自图像分辨率限制，而非注意力机制设计缺陷。

该技术的突破性不仅体现在性能指标上，更在于其设计理念对传统AI架构的革新。R-SWA机制通过分离原始信息与生成内容的更新机制，为需要长序列建模的任务提供了新范式。研究团队已验证该机制在表格结构提取、阅读顺序预测等复杂文档解析任务中的普适性，并计划将其扩展至自动语音识别、机器翻译等领域。

目前，研究团队正着手开发支持128K上下文长度的升级版本，通过构建“前缀池”机制实现真正意义上的无限文档处理。这项技术有望重塑文档数字化工作流程，使整本书籍扫描、多页合同转换等场景实现真正的“一键处理”。完整技术细节可通过arXiv编号2606.23050查阅，代码与模型权重已在GitHub平台开放下载。

首先，这次发射的通信技术试验卫星二十六号A星，本身并不是普通意义上的通信载荷，它除了承担通信、广播电视和数据传输等任务之外，更重要的是进行一系列技术验证与试验探索，由中国航天科技集团八院抓总研制，其定位与低轨…

说句不夸张的话，能不能登上月球、能不能在月球站稳脚跟，关乎的是中华民族未来几十年甚至上百年的国运。五院的青年们深度参与了我国载人航天工程首次应急发射任务，在一线岗位上承担起应急处置、流程把控、多系统联调等重要…

但问题远没有这么简单，当一家主流车企，把一台MPV加高30mm就冠以SUV之名推向市场，这究竟是深挖细分需求的精准卡位，还是同质化竞争下的创新焦虑呢？高山7SUV版从命名到定位的种种争议，恰恰说明长城的品类创…

快科技6月25日消息，今日晚间，苹果官网突然进入维护状态，不少网友猜测苹果设备或将迎来价格调整。果不其然，面向主流市场的高性价比机型MacBook Neo率先调价——这款笔记本此前首发定价为4599元起，如今…

PChome 6月25日消息，百度发布2026年高考服务相关数据，本年度高考期间，百度高考服务累计服务约2.5亿用户，服务人次突破12亿，其中超1500万考生借助百度AI志愿助手完成志愿填报，成为高考志愿填报…

2026年6月25日，上海–奥迪E5Sportback迎来第三次重磅OTA升级，AUDIOS1.3.0版本正式推送。本次升级聚焦智能辅助驾驶与座舱交互两大核心维度，带来多项功能新增与优化，为用户解锁更智能、更…

同行业对比来看，A股上市公司中，按照GICS三级软件行业，16家公司获得MSCI ESG评级，深信服位居第4名。机构持仓方面，截止2026年3月31日，深信服十大流通股东中，香港中央结算有限公司位居第三大…

天弘中证智能汽车A成立于2021年1月19日，业绩比较基准为中证智能汽车主题指数收益率×95%+银行活期存款利率(税后)×5%。该基金成立以来收益5.00%，今年以来收益-6.82%，近一月收益-6.76%…

嘉实中证机器人ETF成立于2024年4月16日，业绩比较基准为中证机器人指数收益率。该基金成立以来收益68.15%，今年以来收益13.04%，近一月收益-5.14%，近一年收益38.09%。田光远自2024…

华夏人工智能ETF联接C成立于2020年6月16日，业绩比较基准为中证人工智能主题指数收益率×95%+人民币活期存款税后利率×5%。该基金成立以来收益87.03%，今年以来收益34.44%，近一月收益5.7…

万家经济新动能混合A成立于2018年2月7日，业绩比较基准为沪深300指数收益率×70%+上证国债指数收益率×30%。该基金成立以来收益131.42%，今年以来收益15.70%，近一月收益-1.41%，近一…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.