ITBear旗下自媒体矩阵:

DeepSeek新模型发力:以小博大,在智能领域与巨头并肩前行

   时间:2025-12-03 21:06:24 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近期,开源模型与闭源模型之间的差距呈现扩大趋势,但DeepSeek发布的两款新模型为开源阵营注入新活力。此次推出的DeepSeek V3.2及高性能版本DeepSeek-V3.2-Speciale,在性能测试中展现出强劲实力。其中V3.2与GPT-5展开激烈角逐,而Speciale版本更是在国际数学奥林匹克(IMO 2025)和中国数学奥林匹克(CMO 2025)等权威赛事中斩获金牌,甚至与闭源模型领域的标杆产品Gemini形成均势。

这家公司今年已连续发布九款模型,尽管备受期待的R2版本尚未问世,但其技术突破已引发行业关注。通过优化算法架构,DeepSeek成功突破传统模型的计算瓶颈。以稀疏注意力机制(DSA)为例,该技术通过引入"固定页数目录"的智能筛选方式,将注意力计算范围从全局压缩至关键区域。实验数据显示,当输入文本长度增加时,采用传统架构的V3.1模型推理成本呈指数级上升,而搭载DSA的V3.2版本则保持稳定,有效解决了长文本处理中的算力浪费问题。

在模型训练策略上,DeepSeek开创性地将强化学习引入后训练阶段。传统开源模型在此环节普遍存在投入不足的问题,导致模型虽具备基础能力却难以应对复杂任务。为此,研究团队设计全新强化学习协议,投入超过总训练算力10%的资源进行专项优化。这种"名师辅导"模式显著提升了模型在数学推理、代码生成等领域的表现,特别是Speciale版本通过取消传统模型对思考时长的限制,允许模型进行深度持续思考,最终实现与Gemini 3的正面交锋。

针对智能体(Agent)能力的提升,研究团队构建了包含24667个真实代码环境、50275个搜索任务及4417个合成场景的虚拟训练环境。在工具调用机制方面,新模型彻底改革了前代产品"思考-调用"割裂的缺陷。现在模型能完整保留工具调用过程中的推理链条,将工具查询记录作为上下文持续保留,仅在用户发起新提问时重置推理状态。这种改进使模型处理简单查询(如日期查询)的效率提升数倍,避免了重复构建推理路径的算力消耗。

尽管取得显著进步,DeepSeek团队在技术论文中坦诚披露现存不足。测试数据显示,在解答专业问题时,Speciale版本平均消耗8077个Token,较Gemini 3的4972个高出61%。但成本对比呈现戏剧性反转:DeepSeek的解决方案单价仅为0.0032美元,不足谷歌同类产品0.06美元的二十分之一。这种"高消耗低价格"的特性,使其在预算敏感型应用场景中展现出独特优势。

技术演进路径方面,DeepSeek的选择与行业主流形成鲜明对比。当多数企业通过扩大参数规模提升性能时,该团队持续深耕算法优化领域。从V2版本的混合专家架构(MoE),到V3引入的多头潜在注意力机制(MLA),再到当前版本采用的稀疏注意力技术,每次迭代都聚焦于算力效率的提升。这种发展模式印证了OpenAI前首席科学家Ilya Sutskever的观点:单纯堆砌硬件资源无法引领行业未来,算法创新才是突破性能瓶颈的关键。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version