滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek开源3B参数量OCR新模型：视觉文本压缩高效，多领域应用潜力大

时间：2025-10-20 19:56:42 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域再迎突破，DeepSeek团队近日发布全新OCR模型DeepSeek-OCR，该模型通过创新的光学压缩技术，在文本信息处理效率方面取得显著进展。这款参数规模仅3B的模型，通过将文本内容映射至视觉像素空间，实现了对长文本的高效压缩。

模型核心架构由DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器构成。其中编码器融合了SAM-base的局部特征捕捉能力与CLIP-large的全局语义理解优势，通过16倍下采样技术，在保持97%关键信息的前提下，将文本数据压缩至原始体积的1/16。这种设计犹如古籍修复专家，既能精准识别单个字符细节，又能把握整体文档结构。

解码器采用混合专家机制（MoE），可根据输入文档特性动态激活6个专业子模块。这种架构使模型在保持3B参数规模的同时，实际运算需求降至570M，在A100显卡上可实现每日处理20万页文档的效率，相当于百名专业录入员的协同工作能力。实验数据显示，当压缩率控制在10倍以内时，模型识别准确率达97%；即便压缩率提升至20倍，仍能保持约60%的准确率。

在基准测试中，该模型展现出显著优势。使用100个视觉token即可超越GOT-OCR2.0（需256个token）的性能，运用不足800个token便优于MinerU2.0（平均需6000+token）。这种高效压缩能力使其在复杂文档处理中表现突出：简单PPT文档仅需64个token即可完整识别，学术论文处理时400个token可准确保留数学公式等专业符号，同时具备阿拉伯语、僧伽罗语等多语言识别能力。

技术团队由三位研究员共同完成，项目负责人Haoran Wei曾主导开发GOT-OCR2.0系统，该成果在GitHub获得超7800次关注。新模型延续了其在光学字符识别领域的技术积累，但将研究重心从传统视觉问答转向视觉编码器对LLM文本处理效率的提升。

实际应用场景中，该模型在金融、医疗、出版等领域展现出巨大潜力。金融机构可快速将财报转化为结构化数据，医疗行业能高效数字化历史病历，出版机构处理古籍的效率可提升数十倍。特别值得注意的是，模型通过视觉token压缩文本的技术路径，为突破大语言模型上下文长度限制提供了新思路。

研究团队指出，OCR任务作为视觉与语言的中间模态，为验证视觉-文本压缩范式提供了理想平台。该模型通过建立视觉与文本间的自然压缩-解压缩映射，不仅优化了信息表示效率，更在实用性能与理论价值间取得平衡。这种技术路径的突破，或将推动多模态大模型向更高效的信息处理方向发展。

更多>同类资讯

DeepSeek新突破：探索视觉-文本压缩边界，高效解决LLM长上下文难题

10-20

无需力传感器！我国科研团队提出全球首个力位混合控制统一理论

10-20

JetBrains叫停CodeCanvas项目，转向AI驱动方案开启开发工具新征程

10-20

英特尔与英伟达“强强联手”：Gaudi3携手B200，异构AI系统效能大幅提升

10-20

阿里夸克“C计划”暗流涌动：对话式AI新布局，或与字节豆包正面交锋

10-20

夸克“C计划”暗流涌动：通义实验室助力，或布局对话式AI新赛道

10-20

上海人工智能研究院：聚焦关键技术突破助力人工智能产业生态建设

【上海人工智能研究院】由上海市与上海交通大学共建，旨在落实国家对人工智能发展的重大决策部署，深入实施创新驱动发展战略成立的人工智能创新平台，于2019年世界人工智能大会上正式揭牌成立。研究院承担上海市人工智…

10-20

10月20日人工智能大模型板块微涨0.22%，安恒信息领涨，资金流向分化

证券之星消息，10月20日人工智能大模型板块较上一交易日上涨0.22%，安恒信息领涨。当日上证指数报收于3863.89，上涨0.63%。深证成指报收于12813.21，上涨0.98%。人工智能大模型板块个股资…

10-20

头部985高校AI大模型算法博士：学术之路闪耀，收入表现亮眼

在当今科技飞速发展的时代，人工智能领域无疑是最闪耀的一颗星，而投身于AI方向的博士们，其收入情况也备受关注。国家希望通过这样的经济补助，让博士们能够更加专注于学术研究，减少生活上的后顾之忧。这位导师非常重视学…

10-20

OpenAI联合创始人卡帕西：AI智能体存短板，距实用化或还需十年

他期待AI能成为人类的协作伙伴而非替代者：在编程场景中，AI可自动调取API文档并验证接口调用准确性；面对不确定问题时，能主动与人类沟通确认，而非盲目猜测；最终通过协作帮助人类提升专业能力，而非单纯提供“可运…

10-20

10月20日人工智能大模型板块微涨，安恒信息领涨，资金流向分化

证券之星消息，10月20日人工智能大模型板块较上一交易日上涨0.22%，安恒信息领涨。当日上证指数报收于3863.89，上涨0.63%。深证成指报收于12813.21，上涨0.98%。人工智能大模型板块个股资…

10-20

具身智能新突破：多机器人协作下分布式任务调度学习如何提效赋能

大模型驱动的全局任务理解：用多模态大模型（如 Gemini Robotics）解析全局任务需求，自动生成更合理的子任务分解（如 “园区巡检”遇雨天时，优先分配 “露天设备检测” 子任务），减少人工干预；边…

10-20

新型离子推进器清理太空垃圾显奇效，或为星际旅行“扫清障碍”

10-20

苹果AI团队“失血”：Siri改版关键人物离职，人才流失困境凸显

10-20

AI模型安全堪忧！250份恶意文件或成操控大语言模型“钥匙”

10-20

全站最新

泰康人寿保险在北京成立置业公司注册资本1亿

长沙市低空经济发展公司成立注册资本5000万

尚雯婕被冻结93.7万股权

热门内容

本栏最新

头部985高校AI大模型算法博士：学术之路闪耀，收入表现亮眼

小米与北大联合论文现“天才少女”罗福莉之名，其职业轨迹与千万年薪传闻引关注

2025百度世界大会11月13日启幕，年度盛会共探技术新趋势

截至10月11日，上海累计完成119款生成式AI服务登记，新增5款

截至2025年10月9日北京市新增3款生成式AI服务累计备案达161款

清华物理才子姚顺宇告别Anthropic，携所学投身谷歌DeepMind开启新征程

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.