ITBear旗下自媒体矩阵:

DeepSeek新模型DeepSeek-OCR引发热议:“视觉压缩”或成AGI新路径

   时间:2025-10-21 12:22:03 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

硅谷科技圈近日被一款来自中国的开源模型搅动得沸沸扬扬。这款名为DeepSeek-OCR的30亿参数模型,凭借"视觉压缩文本"的创新理念,在GitHub上线三天即斩获3300颗星,HuggingFace热榜冲至次席,X平台更是掀起"AI的JPEG时刻"的热烈讨论。

这款被开发者戏称"被名字耽误的革命性模型",其核心突破在于重构了文本处理范式。研究团队发现,当文本token数与视觉token数的压缩比控制在10倍以内时,模型OCR解码准确率可达97%;即便压缩至20倍,仍能保持60%的准确度。这种"以图载文"的思路,恰似人类阅读时"扫一眼知全貌"的认知模式——通过单张图片承载数千文字信息,显著降低计算成本。

技术实现层面,模型采用双组件架构:编码器DeepEncoder负责将图像转化为高密度视觉token,解码器DeepSeek3B-MoE-A570M则从压缩token中重建文本。其中编码器的设计尤为精妙:先通过窗口注意力机制进行局部特征提取,再经16倍卷积压缩器削减token数量,最后由全局注意力模型完成深度理解。这种"局部-压缩-全局"的三段式处理,使1024x1024分辨率图像的token数从4096锐减至256。

实验数据显示,该模型在主流文档解析基准OmniDocBench上创造新纪录。仅用100个视觉token,性能即超越使用256token的GOT-OCR2.0;400token时与前SOTA持平;不足800token便大幅领先需7000token的MinerU2.0。更惊人的是其训练效率——单块A100-40G GPU每日可生成超20万页优质训练数据,较传统方法提升数十倍。

技术突破背后是三位低调研究者的智慧结晶。主导开发者Haoran Wei曾主导第二代OCR系统GOT-OCR2.0研发,此次工作延续了端到端文档解析的技术路径。核心成员Yaofeng Sun深度参与DeepSeek R1、V3等明星模型开发,而拥有谷歌近万次学术引用的Yukun Li,则持续贡献于V2/V3系列模型优化。

研究团队提出的"光学压缩模拟遗忘机制"引发更深层思考。通过将近期记忆比作高分辨率图像(需多token保留细节),远期记忆类比为模糊图像(用少token自然压缩),模型可动态分配计算资源。这种类脑设计使超长上下文处理成为可能——当对话或文档跨越漫长时间轴时,系统能像人类记忆般自动"淡忘"非关键信息,同时保持核心内容的精准度。

卡帕西等AI领域权威对"视觉优于文本输入"的设计给予高度评价,认为这打开了AI记忆架构的新路径。相较于传统模型对短期、中期、远期上下文"一视同仁"的处理方式,DeepSeek的解决方案更接近人类认知模式,有望解决长文本处理中的算力爆炸难题。

目前该模型已展现多领域解析能力,除常规文字识别外,还能深度解析金融报表、化学分子式、数学几何图及百余种语言文档。这种跨模态理解突破,正推动AI向更接近人类智能的方向演进。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version