人工智能领域迎来重量级开源模型更新,DeepSeek正式发布V4系列预览版并全面开源。此次推出的两款模型——参数量达1.6T的DeepSeek-V4-Pro(49B激活参数)和284B参数的DeepSeek-V4-Flash(13B激活参数),均标配百万token上下文窗口,即日起可通过官网及官方App体验,API服务同步开放。
在核心的Agent能力方面,V4-Pro已作为内部编程工具投入日常使用。工程师实测反馈显示,该模型在代码生成任务中的表现优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式。官方基准测试显示,在约200个真实编程任务中,V4-Pro-Max的通过率达67%,显著高于Sonnet 4.5的47%,但略低于Opus 4.6 Thinking的80%。参与调研的85名开发者中,超九成认为其可作为首选或接近首选的编程模型。
工具调用机制迎来重大革新,新引入的XML格式tool-call schema通过「|DSML|」特殊标记划定调用边界。这种设计有效减少了转义失败和工具调用错误,官方称其可靠性较前代显著提升。模型适配性方面,V4系列已完成对Claude Code、OpenClaw等主流Agent产品的专项优化,代码生成与文档处理能力均有增强。
知识推理能力测试中,V4-Pro在世界知识测评SimpleQA-Verified取得57.9分,领先第二名开源模型约20个百分点,仅落后闭源模型Gemini-3.1-Pro 17.7分。在数学、STEM及竞赛代码领域,该模型超越所有已公开评测的开源模型,达到顶级闭源模型水准。基座模型评测显示,V4-Pro-Base在MMLU 5-shot等四项基准测试中全面领先参数量相近的V3.2-Base,其中MMLU-Pro 5-shot得分提升8个百分点至73.5。
竞赛级表现同样亮眼,V4-Pro-Max在Codeforces人类排行榜中位列第23名,IMOAnswerBench通过率达89.8%,仅落后GPT-5.4 1.6个百分点。HMMT 2026 Feb数学竞赛基准测试中取得95.2分,与Opus-4.6 Max的差距不足1%。Agent专项评测显示,其在SWE Verified Resolved任务中通过率达80.6%,与Opus-4.6 Max持平,BrowseComp任务通过率83.4%位列参测模型前列。
长文本处理能力实现突破,1M token场景下MRCR得分83.5,CorpusQA准确率62.0%,均超越Gemini-3.1-Pro。分段数据显示,128K以内检索稳定性优异,1M长度时表现仍优于多数同类模型。中文写作评测中,V4-Pro在功能性写作任务中以62.7%的胜率击败Gemini-3.1-Pro,创意写作质量胜率达77.5%,但在高难度指令约束场景下略逊于Claude Opus 4.5。
针对不同应用场景,两款模型均提供三种推理强度模式。非思考模式响应迅速,适合日常任务;Think High模式启用显式逻辑推理;Think Max模式则强制模型展示完整推理过程,包括被否定的假设。测试数据显示,V4-Pro在Max模式下HLE任务通过率从7.7跃升至37.7,BrowseComp通过率达83.4%。官方建议复杂Agent场景将上下文窗口设为最大值384K token。
百万级上下文支持得益于架构层面的重大创新。V4系列采用CSA与HCA两种压缩注意力机制交替运行,CSA通过闪电索引器筛选top-k压缩块参与计算,HCA则对更长区间token进行激进压缩。1M场景下,V4-Pro单token推理计算量降至V3.2的27%,KV缓存占用减少90%。流形约束超连接技术强化了残差信号传播,训练优化器Muon与AdamW的混合使用提升了模型收敛速度。
训练数据规模超过32T token,涵盖数学、代码、网页等多领域,中期特别加入agentic数据强化代码能力。后训练阶段采用两步范式:先通过SFT与GRPO培养领域专家,再经在线蒸馏整合能力。OPD蒸馏技术采用全词表logit迁移,工程实现需同时加载超十个教师模型权重,隐藏层状态缓存机制避免了显存爆炸问题。
开源策略引发行业震动,四个权重版本同步开放下载,Base版本采用FP8 Mixed精度,指令版本混合使用FP4与FP8。值得关注的是,此次发布未绑定特定硬件厂商,早期访问权限独家授予国产芯片企业。测试显示V4系列已成功适配昇腾平台,这标志着国产算力生态取得重大突破。行业观察人士指出,此举可能加速寒武纪、海光信息等企业的大模型适配进程,推动全球AI硬件标准格局重塑。










