滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

百度开源Unlimited OCR新模型：创新机制攻克长文档难题，作者身份引猜测

时间：2026-06-28 14:24:35 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

国产开源OCR领域迎来重大突破，百度最新发布的Unlimited OCR模型在长文档处理能力上实现质的飞跃。该模型在权威基准测试OmniDocBench上刷新最高纪录，综合得分超越此前领先的DeepSeek OCR，标志着超长文档识别技术进入全新阶段。

传统OCR系统处理长文档时普遍采用"分页处理+结果拼接"的折中方案，这种模式虽能保证单页识别精度，但会导致上下文断裂、信息丢失等问题。Unlimited OCR创新性地引入参考滑动窗口注意力机制（R-SWA），通过模拟人类抄写员的记忆模式，实现了真正意义上的连续阅读。该机制允许模型在保持完整视觉输入的同时，仅保留最近128个文本Token作为局部参考，有效控制了计算资源的消耗。

技术团队通过构建固定长度的KV Cache队列，解决了长文档处理中的显存膨胀难题。实验数据显示，在解析40页以上文档时，模型仍能维持96.90%的Distinct-35指标，编辑距离控制在0.1069以下。这种稳定性在生成6000个Token时体现得尤为明显，推理速度较传统方案提升35%，延迟波动显著降低。

R-SWA机制的核心创新在于对视觉信息的特殊处理方式。与传统滑动窗口注意力将视觉与文本Token混合更新的模式不同，该机制将视觉编码永久保留在参考池中，仅对文本序列进行滑动更新。这种设计确保了图像信息的完整保留，避免了长距离解码导致的视觉信息衰减，为模型提供了持续稳定的视觉锚点。

在基准测试中，Unlimited OCR在OmniDocBench v1.5和v1.6版本分别取得93.23%和93.92%的综合得分，刷新行业纪录。特别值得注意的是，该模型在长文本场景下展现出独特优势，其性能不随文档长度增加而显著下降，这在金融报告、法律文书等长文档处理领域具有重要应用价值。

这项突破不仅限于OCR领域，其核心的注意力机制创新为长上下文处理提供了全新思路。研究团队正在探索将R-SWA扩展至语音识别、机器翻译等序列处理任务，相关技术路线图显示，未来版本将实现128K上下文解析能力，并构建预填池机制实现历史状态按需调用。

技术实现层面，该模型延续了DeepEncoder高压缩率视觉编码器的设计理念，在解码阶段重点优化长期记忆管理。这种技术传承在GitHub项目文档中得到明确体现，团队特别致谢了DeepSeek OCR和PaddleOCR等先行研究，显示出开源社区的技术迭代特征。

值得注意的是，技术报告作者名单中出现的"YY"缩写引发业界关注。通过分析技术叙事风格、机制设计理念和代码实现细节，有观察者推测该核心贡献者可能来自知名OCR研究团队。这种技术传承关系在模型架构选择上体现得尤为明显，从视觉编码到注意力机制的设计都延续了特定技术路线的发展脉络。

项目开源地址显示，该模型已提供完整代码和预训练权重，支持在HuggingFace平台直接调用。这种开放态度将加速长文档处理技术的普及，特别是在金融、法律、出版等需要处理大量结构化文档的领域，该技术有望推动文档智能化处理进入新阶段。

更多>同类资讯

B站17周年陈睿谈优质内容：社区为壤，坚持服务UP主促长期增长

06-28

B站17周年庆：优质内容成土壤，长视频蓬勃发展UP主生命力持久

06-28

马斯克炮轰IBM 0.7纳米芯片命名：纳米标注失真，呼吁改用原子数量标准

06-28

IBM“0.7nm芯片”引热议：是技术突破还是命名“数字游戏”？

06-28

李彦宏领航百度AI长跑：从先驱布局到生态深耕的转型之路

也是在这一年，百度发布对话式AI系统DuerOS和自动驾驶开放平台Apollo，试图围绕语音交互、智能硬件、车路协同和自动驾驶，构建一套面向未来的AI生态。因为百度真正押注的，并不只是一个AI聊天产品，而是…

06-28

马斯克获FTC批准收购Mesh Optical，加速AI数据中心光通信技术布局

月 27 日消息，据彭博社今天报道，埃隆 · 马斯克已获得美国联邦贸易委员会（FTC）批准，收购初创公司 Mesh OpticalTechnologies Corp。根据 FTC 披露的反垄断审查信息，本…

06-28

三星Galaxy S27系列获认证：四款机型齐登场 2nm芯片成标配新亮点

快科技6月27日消息，三星Galaxy S27系列已正式获得GSMA认证，该系列共包含四款机型，分别为Galaxy S27、Galaxy S27Plus、Galaxy S27 Pro以及Galaxy S27…

06-28

6月27日科技动态：DeepSeek更新、苹果人事变动、马斯克布局光通信等热点来袭

芯片方面，苹果 iPhone 18 和 iPhone 18e 两款机型将采用 A20 芯片，预估将于 2027 年 3 月或 4 月发布。而 WMCM（晶圆级多芯片模块）一种将多个芯片或组件以更紧密方式集…

06-28

小米17 Max与Pro Max怎么选？一文详解屏幕续航影像差异助你决策

说白了，小米17 Max是一款主打大屏+长续航体验的旗舰机型；而小米17 ProMax则多了几分极客的傲娇，如果你追求走在街上掏出手机点亮背屏的吸睛度，那多花的预算基本就在这儿了。而如果你是一个影像发…

06-28

科大讯飞P30 Turbo学习机：护眼AI双加持，助力孩子高效学习新选择

适用人群与场景科大讯飞P30 Turbo的设计理念非常适合小学生到高中生的学习需求，尤其是对于那些在学习中需要额外帮助的孩子。综上所述，科大讯飞人工智能学习机P30 Turbo凭借其护眼设计、强大的AI辅导…

06-28

开屏广告“退场”引热议，数字减负之路还需持续发力共筑清爽空间

06-28

捷达品牌焕新启航：以智能电动为笔，绘就新能源出行新蓝图

06-28

《胜利女神：新的希望》发布神秘联动预告，或与《女神异闻录》系列携手来袭

06-28

台积电订单排名出炉：英伟达稳居榜首、AMD紧随其后

06-28

联想拯救者神秘新平板真机曝光：50MP单摄+环形RGB

06-28

点击查看更多 +

全站最新

新能源商用车+智能运营：物流行业绿色数智转型的苏州探索

智美大五座豪华SUV来袭！阿维塔07L明日直播揭秘鸿蒙座舱内饰

AI浪潮席卷通信业：从“卖连接”到“卖智能”，新价值如何破局？

吉林建科携手华为共探数智人才培养新路径助力区域数字经济高质量发展

科大讯飞P30 Turbo学习机：护眼AI双加持，助力孩子高效学习新选择

启境GT7入局车市内卷红海，性价比与配置能否助其破局突围？

热门内容

本栏最新

科大讯飞P30 Turbo学习机：护眼AI双加持，助力孩子高效学习新选择

捷达品牌焕新启航：以智能电动为笔，绘就新能源出行新蓝图

2026奶商指数揭晓：银龄悦己小镇家庭崛起，新生代父母喂养升级新动向

内存涨价潮下手机价格攀升，当下购机抉择：早买享实惠，不买等降价？

岚图追光S实车登场纯电中大型SUV市场再添劲敌与小米YU7谁更胜一筹？

家用动感单车怎么选？匹克、小米石、Keep三款热门产品体验与对比全解析

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.