ITBear旗下自媒体矩阵:

DeepSeek-V3.1低调发布,却以高效智能引发业界关注

   时间:2025-08-21 21:51:27 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

DeepSeek官方近日悄然发布其最新版本——DeepSeek-V3.1,这一消息迅速在网络上发酵,仅仅一个小时内,在X平台上的浏览热度便突破了26万次大关。

据DeepSeek官方介绍,V3.1是一款集“思考模式”与“非思考模式”于一体的混合型模型。用户可根据实际需求,灵活切换推理深度,兼顾效率与能力。

经过深度优化的训练策略与对大规模长文档处理的扩展,DeepSeek-V3.1在推理速度、工具调用智能、代码及数学任务处理等方面均取得了显著进步。让我们深入了解一下这款新版模型的几大亮点:

首先,混合思考模式是DeepSeek-V3.1的一大创新。通过切换对话模板,用户可以在单一模型中轻松实现思考与非思考两种模式的兼容。

其次,模型在工具调用方面展现出更高的智能。得益于后训练优化技术,DeepSeek-V3.1在调用工具和完成智能体(Agent)任务时,表现有了显著提升。

再者,DeepSeek-V3.1-Think版本在思考效率上表现出色。它不仅在回答质量上可与R1-0528模型相媲美,而且响应速度更快。官方测试结果显示,V3.1-Think在美国数学邀请赛2025版(AIME 2025)中得分88.4%,在高难度研究生级知识问答数据集Diamond子集(GPQA Diamond)中得分80.1%,在实时编码基准(LiveCodeBench)中得分74.8%,均优于老模型R1-0528。

尤为V3.1-Think在输出tokens数上大幅减少,这意味着它在计算资源优化方面展现出明显优势。

在软件工程和智能体任务基准测试中,DeepSeek-V3.1同样表现出色。在SWE-Bench Verified测试中,它得分66.0%,远高于V3-0324的45.4%和R1-0528的44.6%,在处理复杂代码任务时展现出更高的可靠性。在多语言版本SWE-Bench Multilingual测试中,DeepSeek-V3.1得分54.5%,大幅领先V3-0324和R1-0528,表明其在多语言支持方面取得了显著进步。

在Terminal-Bench测试中,DeepSeek-V3.1得分31.3%,优于V3-0324和R1-0528,在智能体框架下的效率提升显著,适合自动化运维或DevOps应用。

DeepSeek V3.1的本次更新,核心在于显著增强了模型的智能体能力,特别是在复杂推理和工具链协作场景下的实际表现。它在搜索智能体、长上下文理解、事实问答和工具使用等领域的性能也表现出色。

基于MoE架构的DeepSeek-V3.1(总参数671B,激活37B)在大多数基准测试中显著优于R1-0528。尤其在工具使用(如xbench-DeepSearch)和事实问答(如SimpleQA)中领先,这使其非常适合构建AI智能体应用,如自动化搜索或代码辅助。

与专注于推理但效率较低的R1-0528相比,DeepSeek-V3.1更注重平衡速度与质量。DeepSeek的“智能体时代”已正式到来。

在Huggingface平台上,DeepSeek释放出了更详细的评估结果。结果显示,DeepSeek-V3.1在常规推理和知识问答任务上整体表现稳定提升,非思考和思考模式下的分数均高于V3旧版,基本接近行业顶尖大模型水平。

例如,在Humanity’s Last Exam(HLE,搜索+Python复合推理)任务上,DeepSeek-V3.1实现了29.8%的通过率,优于自家R1-0528版(24.8%),并接近GPT-5、Grok 4等国际一线大模型。

尽管各大模型在评测细节上存在差异,但DeepSeek的表现依然令人瞩目。新版模型在网页检索、复合搜索和工具协同场景等方面取得了跨越式进步。在SWE-Bench Verified代码评测中,DeepSeek-V3.1以66.0%的成绩大幅领先前代,并与Claude 4.1、Kimi K2等顶级模型保持同一水准。

在Terminal Bench终端自动化测试中,DeepSeek-V3.1的得分也略高于GPT-5和o3等知名竞品。在代码生成和自动化评测方面,DeepSeek-V3.1同样表现出色,特别是在智能体模式下,代码任务通过率和自动化执行能力大幅增强。

然而,作为通用对话模型,V3.1并未在所有维度上超越前代产品。在部分常规对话和知识问答场景下,R1-0528仍具有一定竞争力。

除了性能表现外,DeepSeek-V3.1的价格也成为外界关注的焦点。此次,DeepSeek给出了良心的定价策略。输入API价格分为缓存命中和缓存未命中两种情况,分别为0.07美元/百万tokens和0.56美元/百万tokens。输出API价格为1.68美元/百万tokens。

更令人兴奋的是,DeepSeek-V3.1首次实现了对Anthropic API的原生兼容。这意味着用户可以将DeepSeek集成进现有系统,像调用Claude或Anthropic生态的模型一样方便。无论是通过Claude Code工具链还是直接使用Anthropic官方SDK,开发者只需简单配置API地址和密钥,即可在所有支持Anthropic API的环境下使用DeepSeek-V3.1的推理和对话能力。

从目前的反馈来看,外界对DeepSeek-V3.1的发布反响热烈。尽管它并非无敌的存在,但其明确的侧重点和优势赢得了广泛认可。DeepSeek低调而高效的发布方式也赢得了网友的赞誉。在其他模型热衷于炒作规格和性能数据时,DeepSeek却选择直接放出模型文件供开发者下载测试,然后再补充细节。这种高效且开发者友好的做法赢得了广泛好评。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version