近日,科技领域迎来一项重要突破——DeepSeek团队在GitHub平台正式开源其最新研发的DeepSeek-OCR模型,该成果聚焦于光学字符识别技术的革新应用。
作为针对长文本场景设计的创新方案,该模型采用约30亿参数的轻量化架构,首次系统验证了"光学二维映射压缩"技术在复杂上下文处理中的可行性。研究团队通过模块化设计,将核心功能拆解为视觉编码与文本解码两大组件。
在视觉处理环节,DeepEncoder模块展现出独特优势。该组件能够在接收高分辨率图像输入时,自动维持低激活状态,通过动态压缩算法将视觉信息转化为精简的token序列。这种设计既保证了信息完整性,又显著降低了计算资源消耗。
解码部分则由改进型的DeepSeek3B-MoE-A570M架构承担。该解码器通过混合专家系统(MoE)架构,实现了对视觉token的高效解析与文本重构。实验表明,当视觉token与文本token的比例控制在1:10以内时,模型识别准确率可达97%;即使压缩比例提升至20倍,仍能保持约60%的识别精度。
技术团队特别指出,该模型的创新之处在于建立了视觉压缩与文本生成的动态平衡机制。通过控制token压缩比率,系统能够在信息保留与计算效率间取得最优解,这种特性为大语言模型的记忆管理提供了全新研究视角。
目前,开源版本已包含完整的训练框架与推理代码,支持多种分辨率的文档图像处理。研究团队表示,后续将重点优化极端压缩场景下的性能表现,并探索该技术在多模态大模型中的扩展应用。