滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

百度开源Unlimited OCR模型引关注，疑似DeepSeek核心大神助力创佳绩

时间：2026-06-23 01:51:14 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

百度近日低调开源了一款名为Unlimited OCR的模型，其总参数仅30亿，实际激活参数仅500M，却在文档解析领域展现出惊人的性能。在OmniDocBench v1.5基准测试中，该模型以93.23%的综合得分刷新端到端OCR的纪录，在v1.6版本中更将成绩提升至93.92%，远超参数规模大数十倍的Qwen3-VL和Gemini-2.5 Pro等知名模型。

传统OCR模型在处理长文档时普遍存在"逐页失忆"问题，即每处理完一页就清空上下文记忆，导致跨页信息丢失。这种技术瓶颈源于标准注意力机制下KV缓存随输出长度指数级增长，迫使模型不得不牺牲连贯性来维持运行效率。百度研发团队通过模拟人类抄书时的认知模式，提出革命性的参考滑动窗口注意力机制（R-SWA），成功突破这一技术困局。

R-SWA机制的创新性在于其"全局可见、局部记忆"的设计理念。在视觉输入端，模型始终保持对完整文档图像的全面感知；在文本输出端，则仅保留最近128个token的上下文记忆。这种设计使KV缓存形成固定容量的队列结构，无论处理多长的文档，内存占用始终保持恒定。测试数据显示，该模型在输出6144个token时，处理速度比同类模型快35%，且内存占用不随文档长度增加。

支撑Unlimited OCR性能的另一核心技术是DeepEncoder视觉压缩模块。该模块能将1024×1024分辨率的PDF页面压缩至256个视觉token，压缩率达16倍。这种极致压缩不仅没有损失关键信息，反而通过减少冗余数据提升了模型的处理效率。配合R-SWA机制，模型在标准32K上下文窗口内，可一次性完成数十页文档的完整解析。

在具体性能指标上，Unlimited OCR展现出全方位优势。处理20页文档时，其转录结果与原文的编辑距离仅0.057；即使输入超过40页，该指标仍控制在0.11以下。在重复内容检测中，Distinct-35指标高达97%，证明模型能有效避免机械性复读。在文本、公式、表格等九类文档的细分测试中，该模型在七项指标上领先同类产品，特别是在阅读顺序理解和复杂公式识别方面表现突出。

技术文档中一个引人注目的细节是作者署名方式。项目核心成员包括Youyang Yin、Huanhuan Liu和技术总监YY，其中技术总监采用双字母缩写署名。行业观察者通过对比技术路线和人员履历发现，YY的真实身份很可能是前DeepSeek OCR团队负责人魏浩然。这位曾主导开发GOT-OCR2.0和DeepSeek-OCR系列的技术专家，其研究风格与Unlimited OCR展现出的系统化创新特征高度吻合。

此次开源的Unlimited OCR模型已同步上线GitHub和HuggingFace平台，包含完整代码和预训练权重。该项目的推出标志着OCR技术从工程优化阶段向认知架构创新阶段跃迁，其采用的R-SWA机制被技术文档描述为"通用解析任务的免费午餐"，暗示百度可能将该技术扩展至语音识别、机器翻译等领域。当前模型已展示出理解整本书内容的潜力，研发团队正在探索将上下文窗口扩展至128K的技术路径。

更多>同类资讯

马云携阿里高管下田插秧，周靖人现身力破离职不实传闻

06-23

DeepMind工程师揭秘：进顶尖AI实验室，需目标感、毅力与超强数学力

06-23

阿里与蚂蚁管理层集体插秧，以行动传递团结信心与AI发展决心

06-23

SpaceX加速布局AI算力市场与Reflection AI达成长期高额算力合作

06-23

谷歌DeepMind工程师：进顶尖AI实验室需具备目标感、毅力与数学成熟度

06-23

马云率阿里高管下田插秧，以种田之道诠释AI战略深耕决心

06-23

字节切入网约车！豆包打车功能在北京、杭州开启灰度测试

06-23

雷军回应经常直播：清者自清不管用了让更多人了解小米汽车的安全、质量

06-23

阿里发布视频生成模型HappyHorse 1.1，AI影像大赛同步启动

06-23

郭明錤：谷歌联发科TPU v9合作再深化升级版Triggerfish亮相

06-23

亚马逊拟对外销售自研AI芯片Trainium，直接挑战英伟达市场主导地位

06-23

豆包APP灰测打车功能由曹操出行提供服务

06-23

雷军谈与董明珠赌约：玩笑开场却惹麻烦，直言后悔当初举动

06-23

马云携吴泳铭邵晓锋等阿里高层下田插秧周靖人现身破离职传闻

06-23

苏宁旗下碧英科技牵手阿里云，共筑AI算力底座赋能零售全链路升级

06-23

点击查看更多 +

全站最新

胖东来郑州成立新餐饮公司同步下调多款自营产品售价惠及消费者

盒马酒铺“店中店”新玩法：低门槛酒水消费，是增长点还是流量噱头？

马云领衔阿里高管下田插秧挽裤光脚体验农耕田间欢声笑语不断

马云领衔阿里高层下田插秧，蒋凡周靖人等现身共绘田园团建新图景

马云携阿里高管下田插秧，以农耕之道诠释AI战略坚定深耕决心

链博会“新面孔”Walker C1登场：具身智能人形机器人“入职”千行百业

热门内容

本栏最新

盒马酒铺“店中店”新玩法：低门槛酒水消费，是增长点还是流量噱头？

马云领衔阿里高管下田插秧挽裤光脚体验农耕田间欢声笑语不断

马云领衔阿里高层下田插秧，蒋凡周靖人等现身共绘田园团建新图景

马云携阿里高管下田插秧，以农耕之道诠释AI战略坚定深耕决心

阿里HappyHorse 1.1视频生成模型升级，动态表现等多维度提升助力创作

小米“寻天”SUV谍照来袭原厂自带车顶帐篷瞄准户外露营市场

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.