人工智能领域迎来重磅消息,DeepSeek 正式发布并开源其 V4 系列模型预览版,这一举措迅速引发行业关注。此次发布的 V4 系列包含两款模型,分别是参数量达 1.6T 的 DeepSeek-V4-Pro(49B 激活参数)以及 284B 参数的 DeepSeek-V4-Flash(13B 激活参数),两款模型均标配百万 token 上下文,用户即日起可在官网 chat.deepseek.com 或官方 App 体验,API 服务也同步上线。
在核心的 Agent 能力方面,V4 系列表现卓越。V4-Pro 已在 DeepSeek 内部作为 Agentic Coding 工具日常使用,员工实测反馈其使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,不过与 Opus 4.6 思考模式相比仍存在一定差距。官方内部 R&D 编程基准测试显示,在约 200 个来自 50 余位工程师的真实工作任务里,V4-Pro-Max 的 Pass Rate 为 67%,Sonnet 4.5 为 47%,Opus 4.5 Thinking 为 73%,Opus 4.6 Thinking 为 80%。参与内部调研的 85 名有使用经验的开发者和研究人员中,超过九成认为 V4-Pro 已成为首选或接近首选的编程模型。该模型还针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行专项适配,代码任务与文档生成能力均有提升。在工具调用上,V4 系列引入新的 XML 格式 tool-call schema,以“|DSML|”特殊 token 划定调用边界,有效减少了转义失败和工具调用错误,可靠性高于上一代。
知识与推理层面,V4-Pro 成绩斐然。在世界知识测评中,其 SimpleQA-Verified 得分 57.9,大幅领先其他开源模型,虽略逊于 Gemini-3.1-Pro 的 75.6,但在数学、STEM、竞赛代码三项超越全部已公开评测的开源模型,达到顶级闭源模型水准。基座模型评测中,V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 长文本评测上的得分分别为 90.1、73.5、55.2、51.5,全面大幅领先参数量相近的 V3.2-Base。参数量更小的 V4-Flash-Base 在多数基准测试中也超越了 V3.2-Base,表明架构改进带来显著效率提升。指令模型横向对比里,V4-Pro Max 的 LiveCodeBench Pass@1 达到 93.5,Codeforces Rating 达到 3206,均为参测模型中最高。在 Codeforces 人类选手排行榜上,V4-Pro-Max 目前位列第 23 名,IMOAnswerBench Pass@1 达到 89.8,仅次于 GPT-5.4 的 91.4,竞赛数学基准 HMMT 2026 Feb Pass@1 为 95.2,与 Opus-4.6 Max 的 96.2 及 GPT-5.4 的 97.7 差距微小,Apex Shortlist Pass@1 达到 90.2,超过同场对比的所有模型。Agent 评测方面,SWE Verified Resolved 为 80.6,和 Opus-4.6 Max 的 80.8 基本持平,BrowseComp Pass@1 为 83.4,MCPAtlas Public Pass@1 为 73.6,处于参测模型前列,说明其对 MCP 工具生态兼容能力强。长文本评测上,MRCR 1M MMR 为 83.5,CorpusQA 1M ACC 为 62.0,超过 Gemini-3.1-Pro,但在 MRCR 上仍落后 Claude Opus 4.6,不过 128K 以内的检索能力稳定,1M 时的表现也超过大多数同类模型。中文写作方面,V4-Pro 同样表现出色,在包含 3170 条样本的功能性写作评测中,胜率为 62.7%,Gemini 为 34.1%,创意写作质量胜率达到 77.5%,不过在高难度指令约束或多轮写作场景中,Claude Opus 4.5 仍有优势。
对于 V4-Pro 和 V4-Flash 两个版本,不能简单认为 Flash 是降配版。V4-Flash 参数量和激活量小,API 价格更具竞争力,推理能力与 Pro 接近,世界知识储备稍逊,简单 Agent 任务差距不大,高难度任务和思考模式选择才是拉开差距的关键。在 Think Max 模式下,V4-Flash 的推理性能大幅提升,LiveCodeBench Flash Max 达到 91.6,Codeforces Flash Max Rating 达到 3052,GPQA Diamond Pass@1 达到 88.1,IMOAnswerBench Pass@1 达到 88.4,与 Pro Max 差距有限。日常任务用 Flash,遇到难题开 Think Max,性价比高,模式间性能落差远大于版本间落差。以 V4-Pro 为例,HLE Pass@1 从非思考模式的 7.7 提升至 Max 模式的 37.7,Apex Pass@1 从 0.4 提升至 38.3,BrowseComp Pass@1 跃升至 83.4。两款模型均支持三种推理强度,可通过 reasoning_effort 参数切换,非思考模式响应快,适合轻量任务;Think High 开启显式逻辑推理,适合复杂问题与规划;Think Max 推理能力拉满,适合探索模型上限,复杂 Agent 场景建议上下文窗口设为 max。Think Max 模式下还有额外指令,要求模型“以绝对最大力度推理,不允许走捷径”,并显式写出每一步推理和被否定的假设。
在百万长上下文支撑方面,DeepSeek V4 在架构上有重大调整,注意力机制是核心改动。传统注意力计算量随序列长度平方增长,上下文长时成为计算瓶颈。V4 引入两种压缩注意力并交替使用,CSA 把每 m 个 token 的 KV 缓存压缩为一条,再用稀疏注意力挑其中 k 条参与核心计算,其中闪电索引器用 FP4 低精度快速算出每个查询 token 和各压缩块之间的相关性得分,挑出 top-k 个块参与后续注意力,进一步压缩计算量;HCA 用更激进压缩率,把更长区间的 token 压缩为一条,但保持稠密注意力。两种注意力都引入滑动窗口分支,避免压缩损失局部细节。效果显著,在 1M 上下文场景下,V4-Pro 的单 token 推理计算量仅为 V3.2 的 27%,KV 缓存占用降至 V3.2 的 10%,V4-Flash 推理计算量仅为 V3.2 的 10%,KV 缓存降至 7%。官方表示,百万上下文将成为 DeepSeek 所有官方服务标配。除注意力机制外,V4 还引入流形约束超连接(mHC)强化残差连接,传统残差连接直接相加层与层之间信号,mHC 把残差流宽度扩展若干倍,通过三组可学习线性映射动态控制信号混合方式,让跨层信号传播更稳定。训练层面采用 Muon 优化器,与 AdamW 混用,加快收敛速度并提升稳定性。训练中遇到 Loss Spike 问题,DeepSeek 摸索出“预期性路由”和对 SwiGLU 激活函数线性分量做截断两种有效手段,不过机理尚不明确,留待后续研究。两款模型均在超过 32T token 的高质量数据上完成预训练,数据涵盖数学、代码、网页、长文档等类别,中期训练阶段加入 agentic 数据强化代码能力,训练后阶段采用两步范式,先通过 SFT 与 GRPO 强化学习培养领域专家,再经在线蒸馏(OPD)将能力整合进单一模型。
目前,DeepSeek V4 的四个权重版本均已开源,可在 HuggingFace 或 ModelScope 下载。Base 版本采用 FP8 Mixed 精度,指令版本采用 FP4 与 FP8 混合精度,MoE 专家参数使用 FP4,其余参数使用 FP8,FP4 到 FP8 的反量化无损。本地部署建议将采样参数设为 temperature = 1.0、top_p = 1.0。此次发布未提供 Jinja 格式 chat template,官方在 encoding 文件夹中提供 Python 脚本与测试用例,说明如何将 OpenAI 兼容格式的消息编码为模型输入字符串,以及如何解析模型的文本输出。API 接入方面,V4-Pro 与 V4-Flash 已同步上线,同时支持 OpenAI ChatCompletions 接口与 Anthropic 接口,旧接口名称将于三个月后停止使用,开发者需在截止日期前完成迁移。
值得关注的是,DeepSeek V4 在芯片选择上有重大变化,英伟达不再是唯一选项。DeepSeek 把早期访问权限独家开放给国产芯片厂商,这意味着国产模型在“去英伟达化”上迈出重要一步。V4 性能比肩顶级闭源模型,此前若只能跑在英伟达芯片上,“国产最强开源模型”标签会逊色不少,如今跑通昇腾,叙事更完整,算法自主、代码开源、芯片国产。巧合的是,英伟达 CEO 黄仁勋在与科技播客访谈中表示,DeepSeek 不是无足轻重的进展,还假设 DeepSeek 新模型在华为平台上首发,认为这对美国是可怕结果,因为这意味着 AI 模型在中国 AI 硬件上表现最佳,扩散到全球后会推动中国技术成为世界标准。DeepSeek 用万亿参数级别模型验证昇腾可承载顶级大模型推理,为国产算力生态注入强心剂,国内大厂加大昇腾芯片采购力度,V4 的成功适配提供技术背书,寒武纪、海光信息等其他国产芯片厂商也会加速大模型适配进度,一个顶级开源模型的芯片选择,正撬动整条产业链洗牌。











