ITBear旗下自媒体矩阵:

DeepSeek新模型发力:小数据少显卡,也能与巨头模型掰手腕

   时间:2025-12-03 18:25:06 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能模型竞争愈发激烈的当下,开源模型与闭源模型的差距曾一度呈现扩大趋势。然而,DeepSeek的最新动作,为开源模型阵营注入了一剂强心针。

12月1日,DeepSeek一次性发布了两款新模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale。这一举措瞬间在行业内引发关注。DeepSeek V3.2在性能上已能与GPT-5展开激烈角逐,而高性能版的DeepSeek-V3.2-Speciale更是表现惊艳,直接超越GPT系列,与国际公认的闭源模型天花板Gemini打得难解难分。不仅如此,这两款模型还在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)等一系列权威赛事中斩获金牌,实力不容小觑。

值得注意的是,这是DeepSeek今年发布的第九款模型。尽管备受期待的R2尚未现身,但此次两款新模型的发布,已然展现出DeepSeek强大的技术实力和创新能力。那么,DeepSeek究竟是如何凭借更小的数据量和更少的显卡资源,打造出能与国际巨头抗衡的模型呢?

深入探究其背后的技术革新,会发现DeepSeek此次带来了不少新思路。其中,稀疏注意力(DSA)的正式应用堪称一大亮点。在之前的V3.2-EXP版本中,稀疏注意力仅处于测试阶段,主要验证其对模型性能的影响。而此次,DeepSeek果断将其纳入主力模型,为模型性能提升带来了显著效果。

在日常与大模型交互时,我们常常会遇到这样的困扰:对话内容过长时,模型容易出现逻辑混乱甚至直接拒绝继续对话的情况。这其实是传统大模型注意力机制存在的弊端。在传统机制下,每个新生成的token都需要与前面的所有token进行计算,这就导致句子长度与模型计算量呈平方关系增长。例如,句子长度翻倍,计算量就变为原来的四倍;长度变为三倍,计算量则飙升至九倍,极大地限制了模型处理长文本的能力。

为了解决这一问题,DeepSeek为大模型引入了类似“固定页数目录”的稀疏注意力机制。这一机制如同为模型提供了阅读指南,帮助其快速定位关键信息。在处理文本时,模型只需计算当前token与“目录”之间的关系,就像阅读时先浏览目录,再根据兴趣深入阅读具体章节一样。这种改进使得模型处理长文本的能力大幅提升。从相关数据对比图中可以明显看出,随着句子长度增加,采用传统注意力机制的V3.1推理成本急剧上升,而使用稀疏注意力的V3.2则基本保持稳定,大大节省了计算资源。

除了在注意力机制上进行创新,DeepSeek还高度重视开源模型的后训练工作。大模型的训练过程,类似于人类从小学到高考的学习历程。大规模预训练阶段,如同从小学到高二的知识积累,无论是闭源模型还是开源模型,都在这一阶段认真“学习”。然而,到了高考冲刺阶段,也就是模型的后训练阶段,闭源模型通常会投入大量资源,聘请“名师”进行强化学习,以提升模型在考试中的表现。相比之下,开源模型在这一阶段的投入相对较少,导致模型虽然具备基础能力,但在应对难题时表现欠佳。

为了弥补这一短板,DeepSeek设计了一套全新的强化学习协议。在预训练结束后,投入超过总训练算力10%的资源为模型进行专项训练,相当于为开源模型也开设了“名师辅导班”。同时,DeepSeek还推出了具有超长思考能力的特殊版本——DeepSeek V3.2 Speciale。传统大模型由于上下文长度限制,在训练过程中会对深度思考内容进行标注惩罚,思考内容过长就会被扣分。而DeepSeek V3.2 Speciale则打破了这一限制,鼓励模型自由思考,不受思考时长和方式的约束。这一创新使得DeepSeek V3.2 Speciale在与Gemini 3的较量中表现出色。

在智能体能力方面,DeepSeek同样下足了功夫。一方面,为了提升模型的基础能力,DeepSeek构建了一个虚拟环境,合成了大量数据用于辅助训练。具体而言,DeepSeek-V3.2使用了24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用agent场景以及5908个真实代码解释任务进行后训练。另一方面,DeepSeek优化了模型使用工具的流程。以往模型在调用外部工具时,会将思考过程与工具调用分割开来,导致每次调用工具后都需要重新构建推理链,效率低下。例如,即使是查询“今天几月几号”这样简单的问题,模型也需要从头开始推理。而DeepSeek V3.2对这一逻辑进行了彻底重构,在工具调用过程中,模型的思考过程得以保留,只有当用户提出新问题时才会重置推理;工具调用记录和结果也会像聊天记录一样保留在上下文中,大大提高了模型使用工具的效率。

尽管DeepSeek此次取得了一系列令人瞩目的成果,但并非完美无缺。在论文中,DeepSeek坦诚地指出了自身存在的问题。例如,DeepSeek V3.2 Speciale在与谷歌Gemini 3 Pro的对决中,虽然能够打成平手,但在回答相同问题时,DeepSeek需要消耗更多的token。通过实际测试发现,对于一道复杂题目,Gemini 3 Pro仅需4972个token就能给出答案,而DeepSeek V3.2 Speciale则需要8077个token,token消耗量高出近六成。

然而,从成本角度来看,DeepSeek依然具有明显优势。以刚才的测试为例,DeepSeek 8000多个token仅花费0.0032美元,而谷歌的5000个token却需要0.06美元,成本高出约20倍。这一对比显示出DeepSeek在性价比方面的巨大潜力。

近期,开源模型与闭源模型的差距问题备受关注。但DeepSeek凭借自身的努力和创新,不断缩小这一差距。其一系列节省算力、优化数据的操作,让人联想到OpenAI前灵魂人物Ilya Sutskever的观点。他认为,单纯依靠堆砌模型参数并非长远之计。回顾人工智能发展历程,AlexNet仅使用两块GPU,Transformer实验规模大多在8 - 64块GPU之间,ResNet也是如此,没有哪篇论文依赖庞大的集群才能完成。相比之下,对算法的研究同样至关重要。DeepSeek正是沿着这一方向不断探索,从V2的MoE架构,到V3的多头潜在注意力(MLA),再到如今DeepSeek Math V2的自验证机制以及V3.2的稀疏注意力(DSA),每一次进步都源于对算法的深入研究与创新,而非单纯依靠参数规模的扩张。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version