ITBear旗下自媒体矩阵:

MAU被豆包反超,Deepseek以OCR模型“挤牙膏”式更新能否逆袭?

   时间:2025-10-21 12:24:23 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在AI领域竞争愈发激烈的当下,DeepSeek与豆包这两大C端AI应用的市场角力备受关注。近期,DeepSeek在工具模型领域有了新动作,其团队在Hugging Face与GitHub平台上线并开源了DeepSeek-OCR模型,参数规模约3B,采用“视觉-文字压缩”方案,扫描效率较传统OCR模型显著提升,这为DeepSeek在工具模型领域的布局补上了重要一环。

DeepSeek-OCR模型的创新之处在于其“视觉-文字压缩”方案。通常情况下,大语言模型执行OCR任务时计算成本高昂,处理的文字单元越多,计算量呈二次方增长,传统OCR系统识别一页文档往往需处理上千个文字标记。而DeepSeek-OCR的模型工程人员另辟蹊径,利用视觉语言模型(VLM),在语义层面对图像中的文字信息进行压缩,将原本需大量文字标记表达的内容,映射为更少量、更具语义密度的视觉标记,大幅降低了整体计算成本。在OmniDocBench测试中,仅使用100个视觉标记的DeepSeek-OCR就胜过了使用256个视觉标记的GOT-OCR 2.0;在标记数量少于800个的情况下,也击败了每页需要超过6000个标记的MinerU 2.0。

该模型还具备“深度解析模式”,能将财务类图表直接转化为结构化数据,自动生成Markdown表格与图像。这意味着包含数字、曲线、图注的财报截图,无需人工复制粘贴或二次整理,系统就能还原出可编辑的分析稿格式。其核心由负责图像理解的DeepEncoder和基于DeepSeek-3B-MoE架构的文字生成模块组成。DeepEncoder约有3.8亿参数,专门分析图像并生成压缩后的视觉特征;文字生成部分启用5.7亿个活跃参数,用于根据这些视觉特征生成高精度的文字描述。据了解,Deepseek-OCR在10倍压缩下解码精度可达97%,即使在20倍压缩下也能保持60%的准确率,一张图像仅需LLM所需token的一小部分,即可表示整篇文档。

然而,在C端用户规模方面,DeepSeek近期遭遇了豆包的反超。根据QuestMobile披露的数据,2025年8月,豆包月活用户数约为1.57亿,环比增长约6.6%;同期DeepSeek月活约为1.43亿,豆包时隔两个季度,在国内C端AI应用市场中重新夺回头部地位。

豆包的成功离不开其生态优势与用户触点积累。与Deepseek不同,豆包定位为面向所有“大众用户”、强调场景化体验,在语音、图像、社交分享等领域均延展了模型能力,降低了用户使用门槛。一方面,豆包借助抖音等字节系社交平台的分发能力,在视频网站上投放大量广告,许多新用户在这一过程中被动接触并转化。另一方面,豆包在立项之初就瞄准最广泛的受众,产品体验面更宽。“豆包”这个名字相对朗朗上口,APP的logo设计也更加拟人化,人格化交互能力是其能力建设的重要板块,随豆包一同公测的聊天Agent“小宁”,体现了陪伴/拟人的属性。凭借字节在语音/视频生成等多领域建立的模型矩阵,豆包支持多种多模态(文本、语音、图像、视频生成)功能,功能繁杂且有清晰的用户引导逻辑,小白用户上手快。

从产品更新节奏来看,DeepSeek在2024年底发布V3模型,今年5月发布R1-0528,优化了R1模型的幻觉问题。但此后,尽管大版本更新传言不断,传说中的R2却迟迟未现真身。在本次OCR模型发布之前,Deepseek在下半年的主要动作是更新了V3.1模型,支持混合推理模式以及128K tokens的长上下文输入。而在月活榜单被豆包挤到第二名后,Deepseek也并未在App端交互/生态上做出大幅优化动作,一直沿用类似“ChatGPT”风格的交互逻辑,坚定走在“模型即产品”的道路上。

在战略路径上,Deepseek始终坚持“技术深耕”的路线。此次更新的Deepseek-OCR模型体现了其在LLM领域的领先技术探索能力。不过,面对竞争对手庞大的生态优势,Deepseek眼下的产品理念和风格,对于用户规模的转化效率仍有待观察。即使被豆包反超,Deepseek仍然坐拥1.5亿月活,在C端领域已经打响了口碑。在技术指标上,Deepseek也一直延续超大参数模型策略,V3系列总参数量高达671B,同期AI“六小龙”其他的开源模型,如智谱GLM-4.5只有355B。

DeepSeek-OCR的发布不仅在C端工具类场景有着不错的应用前景,还可能成为模型训练的“催化剂”。据了解,Deepseek-OCR每天可以在单个Nvidia A100 GPU上处理超过20万页数据。如果使用20台服务器,每台服务器运行8块A100处理器,吞吐量将跃升至每天3300万页。这样的吞吐效率,可以有效帮助构建其他大模型的训练数据集,为走超大参数路线的AI企业提供更高效的解决链路。

未来,DeepSeek若想在后续竞争中与豆包抗衡,生态因素是需要考虑的重要因素。强如OpenAI,进入2025年后也在积极拓展模型能力在各领域生态的构建,如参与AI玩具等硬件方案的研究,Sora2以短视频平台的方式与用户见面,为Deepseek提供了参考模板。对于Deepseek而言,除了加速下一代模型的迭代外,利用好庞大的C端用户规模同样至关重要。由于模型产品线不同,短期内Deepseek显然无法复刻字节/OpenAI的生态策略,但在C端生态上能否走出差异化路线,将是其能否再度向豆包发起冲击的关键。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version