DeepSeek近期推出了一款名为DeepSeek-OCR的新型模型,该模型通过图像技术革新了数据存储方式,仅需传统方法十分之一的token,即可实现同等信息量的存储。这一突破性成果引发了全球科技界的广泛关注,甚至被业内人士戏称为“让信息论创始人香农和计算机之父冯·诺伊曼都为之侧目”的技术。
与传统OCR技术不同,DeepSeek-OCR实现了逆向创新:将海量文字信息转化为图像进行存储。这种技术路径的转变源于一个简单观察——单张图片包含的信息量远超等量文字描述。例如,在文档理解测试中,该模型仅用100个视觉token就超越了需要256个token的GOT-OCR 2.0模型,在更复杂场景下,800个token的表现更是远超平均需要6000+token的MinerU 2.0模型。
技术团队设计了多层级存储方案:简单文档仅需64个视觉token,内容复杂的页面会自动切换至400个token的Large模式,更可动态启用Gundam模式实现自适应存储。这种分级机制不仅优化了存储效率,更带来意想不到的副作用——模型能自动识别并转换图表数据为Excel格式,将分子结构图转化为标准SMILES代码,甚至能精准定位图片在文档中的位置及其周边文字信息。
这项创新恰好解决了AI训练领域的核心痛点:高质量数据匮乏。传统方法只能提取文档中的文字信息,而图表、插图等二维数据长期被忽视。DeepSeek-OCR的出现,使得单张A100显卡每日即可处理20万页文档,相当于为模型开辟了全新的数据矿藏。更关键的是,图像存储方式使token使用量缩减至原来的十分之一,在压缩20倍的情况下仍能保持60%的准确率,仅损失3.5%的性能就实现了存储效率的十倍提升。
研究团队在实验中发现了有趣的现象:模型采用不同清晰度存储图像的方式,与人类记忆的遗忘曲线高度相似。新近信息以“4K HDR”格式存储,随着时间推移自动降级为480P格式,这种动态调整机制或许能为提升模型上下文处理能力提供新思路。虽然目前尚未得出明确结论,但开源社区已开始围绕这一方向展开探索。
该项目的开源特性加速了技术演进,其训练数据融合了华为Wukong数据集,文字生成借助百度PaddleOCR,图像特征提取采用meta开源的SAM模型,视觉语义理解则整合了OpenAI的CLIP技术。这种跨机构的技术协作,最终催生出能够“用图像思考”的新型AI架构,为多模态大模型的发展开辟了全新路径。