近日,DeepSeek悄然推出了其最新的V3.1版本,这一更新在表面上以“上下文长度拓展至128k”为亮点,但实际上却蕴含着更为深远的模型架构变革和性能微调。
据社区深入探索与实测发现,V3.1的核心并不在于简单的上下文长度扩展,而是引入了混合推理架构。这一架构使得一个模型能够同时支持思考模式与非思考模式,用户在使用时无需切换模型,只需通过设置即可选择模式。这一改变在DeepSeek的官方网页和APP上已有体现,即便用户开启“深度思考”模式,模型标识也已统一为“V3”。
在性能优化方面,V3.1的编程能力得到了显著提升。据Aider编程基准测试数据显示,DeepSeek V3.1取得了71.6%的高分,超越了此前的DeepSeek R1,甚至击败了强大的闭源模型Claude 4 Opus。在SVGBench和MMLU等其他权威基准测试中,V3.1同样表现出色,仅在研究生级别问答和软件工程等领域与GPT-5存在差距。
V3.1在实战中的编程能力虽非完美,但已能满足基本功能要求。例如,在新智元生成“黑客帝国风格”的three.js动态世界的任务中,V3.1虽然实现了基本功能,但在细节处理上仍有提升空间。尽管如此,其成本效益却颇为可观。社区用户测试显示,完成同样一次完整的编程任务,V3.1的成本远低于Claude 4 Opus,性价比名列前茅。
此次更新中,DeepSeek V3.1的Agent能力也实现了显著增强。通过专门的Post-Training优化,新模型在工具使用与智能体任务中表现出巨大提升,尤其在复杂的软件工程和终端控制任务上实现了跨越式进步。在衡量真实世界代码修复能力的SWE-bench Verified基准上,V3.1的得分远超前代。同时,在更具挑战性的Terminal-Bench测试中,V3.1的得分也达到了前代推理模型的五倍以上。
然而,V3.1的“模型融合”策略却在社区引发了巨大争议。不少用户反馈,新版本重新出现了幻觉严重和中英夹杂的问题,且模型在面对复杂问题时表现出“能省则省”的倾向。这些弊端可能正是混合模型带来的副作用。DeepSeek激进的更新策略也让商业API用户感到不满。他们担心线上生产业务的API可能因更新而崩溃,影响商业应用的稳定性。
尽管存在争议,但DeepSeek V3.1的推出无疑再次展示了其在AI领域的创新实力。未来,随着技术的不断进步和应用的深入拓展,DeepSeek或将继续引领AI行业的发展潮流。