人工智能领域迎来重要进展,DeepSeek近日发布两款全新模型——DeepSeek-V3.2及其长思考增强版DeepSeek-V3.2-Speciale。这两款模型在推理、智能体等多项基准测试中表现优异,成为当前开源模型中性能最强的代表,部分指标甚至达到国际领先水平。
标准版DeepSeek-V3.2在公开推理类测试中展现出强大实力,其表现已接近GPT-5,仅略逊于Gemini-3.0-Pro。与Kimi-K2-Thinking相比,V3.2的输出长度显著缩短,计算开销和用户等待时间均大幅降低。该模型还首次将思考模式融入工具使用,支持思考与非思考两种工具调用方式,在智能体评测中达到开源模型最高水平,且未针对测试工具进行特殊训练,显示出较强的泛化能力。
长思考增强版DeepSeek-V3.2-Speciale结合了DeepSeek-Math-V2的定理证明能力,在指令跟随、数学证明和逻辑验证方面表现突出。在主流推理基准测试中,其性能可与Gemini-3.0-Pro媲美。该版本在国际顶级学术竞赛中取得突破性成绩,斩获IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025金牌,其中ICPC与IOI成绩分别达到人类选手第二名和第十名的水平。不过,由于该版本消耗的Tokens更多、成本较高,目前仅供研究使用,不支持工具调用,也未针对日常对话和写作任务进行优化。
针对开源模型与专有模型差距扩大的问题,DeepSeek团队分析认为,主要限制因素包括:原始注意力机制在长序列处理效率上的不足、训练后阶段算力投入不足,以及智能体应用场景中泛化能力和指令遵循能力的滞后。为解决这些问题,DeepSeek提出三项创新方案:引入高效的稀疏注意力机制DSA,开发可扩展的强化学习协议,以及设计促进工具使用场景泛化推理的新流程。
DSA机制通过闪电索引器快速筛选重要token,仅对关键token进行详细分析,将注意力复杂度从平方级降低为近似线性增长。这种设计在保持模型质量的同时,显著提升了长序列推理效率。在H800 GPU上的测试显示,DeepSeek-V3.2实现了显著的端到端加速,在短上下文场景下也通过专门掩码模式进一步提升了效率。
在后训练阶段,DeepSeek采用专家蒸馏与混合式强化学习相结合的方法。团队从同一基础检查点出发,为数学、编程、逻辑推理等六类专业任务训练专属模型,再将这些专家的能力汇聚到统一大模型中。混合式强化学习则采用GRPO算法,将推理、智能体与人类对齐的训练整合到同一阶段,避免灾难性遗忘。为解决思考模式与工具使用的结合问题,团队设计了新的上下文管理机制,确保模型在多轮工具调用中保持推理连续性。
目前,DeepSeek官方网页端、App和API均已更新为DeepSeek-V3.2正式版,Speciale版本则以临时API服务形式开放供社区评测与研究。两款模型的技术报告和开源代码已在模型库平台发布,供研究人员下载使用。
尽管DeepSeek-V3.2在计算效率与推理能力之间取得了平衡,但团队也承认其存在局限性。由于整体训练计算量较少,该模型的世界知识广度仍落后于领先专有模型;在token效率方面,通常需要更长的生成轨迹才能达到相似输出质量;在解决复杂任务方面,与前沿模型相比仍有提升空间。这些挑战将成为未来迭代优化的重点方向。











