OpenAI前首席科学家、现SSI首席执行官伊利亚·苏茨克维在近期播客访谈中提出,过去五年主导人工智能发展的“规模扩展时代”正接近尾声。他指出,预训练数据的有限性决定了单纯堆叠GPU资源难以带来质的突破,行业正从“堆算力”转向以研究为核心的新阶段,但这次研究将拥有前所未有的算力支撑。这一观点引发了对“扩展法则失效论”的广泛讨论,而DeepSeek最新发布的V3.2和V3.2-Speciale模型,则为这场辩论提供了新的实证视角。
DeepSeek研究员古志斌在社交平台发文称,若将Gemini 3.0 Pro视为预训练扩展性的证明,那么V3.2-Speciale则展示了在大规模上下文环境中强化学习的可扩展潜力。他强调,团队通过一年时间将V3系列推向极限,发现训练瓶颈的突破关键在于优化方法与数据质量,而非被动等待更强大的基础模型。这种“主动突破”的思路,与行业普遍认为的“后训练阶段瓶颈”形成鲜明对比。
技术报告显示,开源模型与闭源模型的性能差距正在扩大。当前开源系统存在三大短板:传统注意力机制导致长序列处理效率低下、后训练算力投入不足、智能体场景下的泛化能力薄弱。DeepSeek通过V3.2系列模型,针对性地提出了解决方案。其中,V3.2定位为日常主力模型,其推理能力已达到GPT-5水平:在AIME 2025数学竞赛中取得93.1%的准确率(GPT-5为94.6%),HMMT 2025二月赛达92.5%(GPT-5为88.3%),LiveCodeBench代码评测获83.3%(GPT-5为84.5%)。更关键的是,该模型通过严格的Token约束机制,在保持性能的同时将输出成本降低至同类产品的三分之一。
架构创新是V3.2的核心突破点。模型采用的稀疏注意力机制(DSA)将计算复杂度从O(L²)降至O(Lk),在长上下文处理中展现出显著优势。实验数据显示,V3.2在标准基准测试中与前代模型持平,但在第三方长文本评测中得分高出4分,验证了稀疏注意力在效率与性能间的平衡能力。该模型首次实现了“思考模式”与“工具调用”的融合,突破了传统推理模型在深度思考时无法调用外部工具的限制。
在智能体能力训练方面,DeepSeek构建了覆盖1800余种环境、8.5万条复杂指令的合成数据流水线。其设计哲学强调“难解答、易验证”——以旅行规划任务为例,模型需在海量约束条件下生成方案,但验证方案合规性却相对简单。这种特性使强化学习训练效率大幅提升,实验表明,仅使用合成数据训练的模型在Tau2Bench等基准测试中表现优异,而仅依赖真实环境数据的模型则进步微弱。值得关注的是,V3.2未针对测试集进行特殊优化,其泛化能力通过开源社区评测得到验证。
作为V3.2的“深度推理增强版”,Speciale模型通过放宽长度限制鼓励更深入的逻辑探索。技术报告显示,在AIME 2025任务中,Speciale输出23k tokens,远超GPT-5 High的13k和Gemini 3.0 Pro的15k;Codeforces代码生成任务中,其77k的输出量达到Gemini的3.5倍。尽管思考过程更长,但得益于DSA架构的效率优化,Speciale的实际使用成本比GPT-5低25倍,较Gemini 3.0 Pro便宜30倍。该模型整合了DeepSeekMath-V2的“生成器-验证器”双架构,将数学证明的过程监督机制扩展至代码生成和通用逻辑任务,验证了自我验证能力的可迁移性。
技术报告坦承,由于总训练量较少,V3.2的世界知识广度仍落后于闭源竞品。但DeepSeek选择优先打磨方法论——通过合成数据、自我验证和大规模强化学习,将后训练阶段的能力边界推向新高度。这种“方法论优先”的策略已显现成效:V3.2将自我进化工程应用于通用效率优化,Speciale则推动过程奖励机制向高阶逻辑延伸。两者共同指向一个趋势:未来模型将通过自我博弈实现持续演进,而非依赖人工标注的静态数据集。
行业观察者指出,DeepSeek的技术路径具有独特性。其过去一年在多模态统一架构、视觉压缩记忆、长上下文效率等领域的创新,均基于V3基座迭代开发。若将这些验证有效的方法论应用于参数规模更大、训练量更多的V4模型,可能催生具备多模态感知、长期记忆和真实环境交互能力的全新系统。更引人遐想的是,在英伟达高端芯片对华出口受限的背景下,DeepSeek如何获取支撑下一代模型训练的算力资源,将成为观察中国AI突破路径的重要窗口。












