近日,DeepSeek公司震撼发布其最新一代大语言模型——DeepSeek-V3.1,凭借创新的混合推理架构和显著增强的智能体能力,再次掀起了全球AI市场的技术狂澜。
DeepSeek-V3.1的核心竞争力在于其独特的混合推理架构,这一设计使得模型能够在同一框架内无缝切换“思考”与“非思考”两种模式。据官方介绍,通过精心训练与优化,新版本在工具使用、编程以及搜索等智能体任务上的表现均有显著提升。尤为该模型采用了针对下一代国产芯片设计的UE8M0 FP8 Scale参数精度。
社区测试数据揭示了DeepSeek-V3.1的强大实力:在Aider多语言编程基准测试中,其得分力压Anthropic的Claude 4 Opus,同时展现出显著的成本优势。这一卓越表现迅速吸引了开发者社区的广泛关注,模型在Hugging Face平台上的热度持续攀升。
为了进一步提升用户体验,DeepSeek同步升级了API接口,不仅将上下文窗口扩展至128K,还新增了对Anthropic API格式的支持,极大地简化了迁移过程。更为关键的是,公司宣布将于2025年9月6日起实施新的API定价方案,并取消夜间优惠,这标志着DeepSeek在服务能力扩容后,正加速推进商业化进程。
混合推理架构的引入,标志着DeepSeek正迈向一个全新的Agent时代。相较于上一代模型DeepSeek-R1-0528,DeepSeek-V3.1-Think能够在更短的时间内给出答案,思考效率显著提升。同时,通过Post-Training优化,新模型在工具使用与智能体任务中的表现也取得了质的飞跃。
在编程和搜索等Agent能力方面,DeepSeek-V3.1同样表现出色。在代码修复(SWE)和命令行终端任务(Terminal-Bench)测试中,其性能相较于公司以往模型有了显著提高。在复杂搜索测试(browsecomp)中,该模型也展现出了强大的多步推理能力,遥遥领先。
第三方测试进一步验证了DeepSeek-V3.1在编程领域的卓越表现。在Aider编程基准上,该模型取得了71.6%的高分,超越了包括Claude 4 Opus在内的多个知名模型。同时,其成本效益也极为显著,完成一次编程任务的成本仅为1.01美元,远低于部分专有闭源模型。这些性能指标的提升,无疑增强了DeepSeek在自动化编程和复杂信息处理等商业场景中的竞争力。
在开源与API更新方面,DeepSeek继续秉持开放策略,将V3.1的Base模型和后训练模型发布在Hugging Face与魔搭社区上。此次发布的模型参数量为685B,Base模型在V3基础上额外进行了840B token的训练。公司特别提醒开发者注意,新模型采用了新的参数精度,且分词器和聊天模板有较大调整,在部署时需参考最新文档。
DeepSeek的API服务也迎来了全面升级。除了扩展上下文长度至128K外,还为开发者提供了更强大的工具调用功能,如支持strict模式的Function Calling,以确保输出格式的规范性。同时,为降低生态迁移成本,API还增加了对Anthropic API格式的兼容支持,方便使用Claude Code框架的开发者接入DeepSeek模型。
在技术与产品不断更新的同时,DeepSeek也迈出了坚定的商业化步伐。公司宣布,将从2025年9月6日起对开放平台的API接口调用价格进行调整,并同步取消夜间时段优惠。此举旨在更好地满足用户调用需求,并透露已对API服务资源进行了扩容。