OpenAI前首席科学家、现SSI首席执行官Ilya Sutskever在近期播客访谈中提出一个引发行业热议的观点:过去五年的“规模扩张时代”已接近尾声。他指出,预训练数据资源并非取之不尽,单纯依靠增加GPU数量堆砌更大模型,即便规模扩大百倍也未必能实现质的飞跃。这一论断被视为对“规模法则失效论”的强力支持,引发技术圈对大模型发展路径的深度反思。
就在行业争论未休之际,DeepSeek团队以实际行动给出截然不同的答案。12月1日发布的V3.2及V3.2-Speciale两款模型,通过技术报告与实测数据证明:规模化发展并未触达天花板,只是需要转向更精细化的优化方向。DeepSeek研究员Zhibin Gou在社交平台公开表示,团队耗时一年将V3系列推向极限,发现训练瓶颈的突破关键在于优化方法与数据质量,而非单纯依赖基础模型升级。他特别强调:“持续扩大模型规模、数据量与强化学习投入,不应被所谓‘瓶颈论’干扰前进步伐。”
技术报告直指当前开源模型三大核心短板:传统注意力机制导致长序列处理效率低下、后训练阶段算力投入不足、复杂场景下的泛化能力欠缺。针对这些问题,V3.2通过架构创新实现突破。该模型引入的稀疏注意力机制(DSA)将计算复杂度从O(L²)降至O(Lk),在保持性能的同时显著提升效率。实测数据显示,V3.2在AIME 2025数学竞赛中取得93.1%的准确率,接近GPT-5的94.6%;在HMMT 2025二月赛中以92.5%超越GPT-5的88.3%;代码生成任务LiveCodeBench上达到83.3%,与GPT-5仅相差1.2个百分点。更关键的是,其输出Token量较同类模型大幅降低,成本优势明显。
V3.2的另一重大突破在于首次实现“思考”与“工具调用”的深度融合。传统推理模型在深度思考模式下无法调用外部工具,而V3.2打破这一限制,支持两种模式下的工具协同操作。技术团队构建的Agent任务合成流水线覆盖1800余种环境与8.5万条复杂指令,通过“难解答、易验证”的设计哲学,使模型在旅行规划等任务中通过海量试错获得强化学习反馈。实验表明,仅使用合成数据训练的模型在Tau2Bench等基准测试中表现优异,而仅依赖真实环境数据的模型指标几乎无提升,验证了合成数据的有效性。
作为V3.2的“深度推理增强版”,Speciale模型通过放宽长度限制探索高阶逻辑能力。技术报告显示,该模型在AIME 2025任务中输出23k tokens,远超GPT-5 High的13k与Gemini 3.0 Pro的15k;在Codeforces编程挑战中输出77k tokens,达到Gemini的3.5倍。尽管输出量激增,但得益于DSA架构与定价策略,其使用成本较GPT-5低25倍,较Gemini 3.0 Pro低30倍。Speciale的核心价值在于将数学领域验证的“生成器-验证器”双模型架构迁移至通用逻辑任务,通过动态扩展验证计算资源,实现推理过程的严谨性监督。这种机制使模型在代码生成等任务中不仅追求正确答案,更注重推理链条的完整性。
技术报告坦承,由于总训练算力投入较少,V3.2的世界知识广度仍落后于闭源领先模型。但DeepSeek选择优先打磨方法论:通过合成数据闭环与高强度强化学习挖掘后训练潜力,而非被动等待更大规模的基础模型。这种策略在V3.2与Speciale上已见成效——前者将自我进化机制应用于通用效率优化,后者将过程奖励体系推向高阶推理领域。两者共同指向一个趋势:未来模型将通过自我博弈实现持续演进,而非依赖人工标注的静态数据集。
行业观察者指出,DeepSeek的技术路径具有独特性。其过去一年在多模态统一架构、视觉压缩记忆、长上下文效率等领域的技术积累,均基于V3基座迭代而来。若将这些已验证的方法论应用于参数规模更大、训练算力更充足的V4模型,可能催生具备多模态感知、长期记忆与真实环境交互能力的全新系统。当前行业更关注的是,在英伟达高端GPU对中国市场供应受限的背景下,DeepSeek如何获取支撑下一代模型训练的算力资源,这或将重新定义大模型竞争的技术边界与商业逻辑。











