DeepSeek V4适配国产芯片，国产AI生态崛起，英伟达“一家独大”成过往-人工智能-ITBear比尔科技

人工智能领域迎来重磅消息，DeepSeek 正式发布并开源其 V4 系列模型预览版，这一举措迅速引发行业关注。此次发布的 V4 系列包含两款模型，分别是参数量达 1.6T 的 DeepSeek-V4-Pro（49B 激活参数）以及 284B 参数的 DeepSeek-V4-Flash（13B 激活参数），两款模型均标配百万 token 上下文，用户即日起可在官网 chat.deepseek.com 或官方 App 体验，API 服务也同步上线。

在核心的 Agent 能力方面，V4 系列表现卓越。V4-Pro 已在 DeepSeek 内部作为 Agentic Coding 工具日常使用，员工实测反馈其使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，不过与 Opus 4.6 思考模式相比仍存在一定差距。官方内部 R&D 编程基准测试显示，在约 200 个来自 50 余位工程师的真实工作任务里，V4-Pro-Max 的 Pass Rate 为 67%，Sonnet 4.5 为 47%，Opus 4.5 Thinking 为 73%，Opus 4.6 Thinking 为 80%。参与内部调研的 85 名有使用经验的开发者和研究人员中，超过九成认为 V4-Pro 已成为首选或接近首选的编程模型。该模型还针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行专项适配，代码任务与文档生成能力均有提升。在工具调用上，V4 系列引入新的 XML 格式 tool-call schema，以“|DSML|”特殊 token 划定调用边界，有效减少了转义失败和工具调用错误，可靠性高于上一代。

知识与推理层面，V4-Pro 成绩斐然。在世界知识测评中，其 SimpleQA-Verified 得分 57.9，大幅领先其他开源模型，虽略逊于 Gemini-3.1-Pro 的 75.6，但在数学、STEM、竞赛代码三项超越全部已公开评测的开源模型，达到顶级闭源模型水准。基座模型评测中，V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 长文本评测上的得分分别为 90.1、73.5、55.2、51.5，全面大幅领先参数量相近的 V3.2-Base。参数量更小的 V4-Flash-Base 在多数基准测试中也超越了 V3.2-Base，表明架构改进带来显著效率提升。指令模型横向对比里，V4-Pro Max 的 LiveCodeBench Pass@1 达到 93.5，Codeforces Rating 达到 3206，均为参测模型中最高。在 Codeforces 人类选手排行榜上，V4-Pro-Max 目前位列第 23 名，IMOAnswerBench Pass@1 达到 89.8，仅次于 GPT-5.4 的 91.4，竞赛数学基准 HMMT 2026 Feb Pass@1 为 95.2，与 Opus-4.6 Max 的 96.2 及 GPT-5.4 的 97.7 差距微小，Apex Shortlist Pass@1 达到 90.2，超过同场对比的所有模型。Agent 评测方面，SWE Verified Resolved 为 80.6，和 Opus-4.6 Max 的 80.8 基本持平，BrowseComp Pass@1 为 83.4，MCPAtlas Public Pass@1 为 73.6，处于参测模型前列，说明其对 MCP 工具生态兼容能力强。长文本评测上，MRCR 1M MMR 为 83.5，CorpusQA 1M ACC 为 62.0，超过 Gemini-3.1-Pro，但在 MRCR 上仍落后 Claude Opus 4.6，不过 128K 以内的检索能力稳定，1M 时的表现也超过大多数同类模型。中文写作方面，V4-Pro 同样表现出色，在包含 3170 条样本的功能性写作评测中，胜率为 62.7%，Gemini 为 34.1%，创意写作质量胜率达到 77.5%，不过在高难度指令约束或多轮写作场景中，Claude Opus 4.5 仍有优势。

对于 V4-Pro 和 V4-Flash 两个版本，不能简单认为 Flash 是降配版。V4-Flash 参数量和激活量小，API 价格更具竞争力，推理能力与 Pro 接近，世界知识储备稍逊，简单 Agent 任务差距不大，高难度任务和思考模式选择才是拉开差距的关键。在 Think Max 模式下，V4-Flash 的推理性能大幅提升，LiveCodeBench Flash Max 达到 91.6，Codeforces Flash Max Rating 达到 3052，GPQA Diamond Pass@1 达到 88.1，IMOAnswerBench Pass@1 达到 88.4，与 Pro Max 差距有限。日常任务用 Flash，遇到难题开 Think Max，性价比高，模式间性能落差远大于版本间落差。以 V4-Pro 为例，HLE Pass@1 从非思考模式的 7.7 提升至 Max 模式的 37.7，Apex Pass@1 从 0.4 提升至 38.3，BrowseComp Pass@1 跃升至 83.4。两款模型均支持三种推理强度，可通过 reasoning_effort 参数切换，非思考模式响应快，适合轻量任务；Think High 开启显式逻辑推理，适合复杂问题与规划；Think Max 推理能力拉满，适合探索模型上限，复杂 Agent 场景建议上下文窗口设为 max。Think Max 模式下还有额外指令，要求模型“以绝对最大力度推理，不允许走捷径”，并显式写出每一步推理和被否定的假设。

在百万长上下文支撑方面，DeepSeek V4 在架构上有重大调整，注意力机制是核心改动。传统注意力计算量随序列长度平方增长，上下文长时成为计算瓶颈。V4 引入两种压缩注意力并交替使用，CSA 把每 m 个 token 的 KV 缓存压缩为一条，再用稀疏注意力挑其中 k 条参与核心计算，其中闪电索引器用 FP4 低精度快速算出每个查询 token 和各压缩块之间的相关性得分，挑出 top-k 个块参与后续注意力，进一步压缩计算量；HCA 用更激进压缩率，把更长区间的 token 压缩为一条，但保持稠密注意力。两种注意力都引入滑动窗口分支，避免压缩损失局部细节。效果显著，在 1M 上下文场景下，V4-Pro 的单 token 推理计算量仅为 V3.2 的 27%，KV 缓存占用降至 V3.2 的 10%，V4-Flash 推理计算量仅为 V3.2 的 10%，KV 缓存降至 7%。官方表示，百万上下文将成为 DeepSeek 所有官方服务标配。除注意力机制外，V4 还引入流形约束超连接（mHC）强化残差连接，传统残差连接直接相加层与层之间信号，mHC 把残差流宽度扩展若干倍，通过三组可学习线性映射动态控制信号混合方式，让跨层信号传播更稳定。训练层面采用 Muon 优化器，与 AdamW 混用，加快收敛速度并提升稳定性。训练中遇到 Loss Spike 问题，DeepSeek 摸索出“预期性路由”和对 SwiGLU 激活函数线性分量做截断两种有效手段，不过机理尚不明确，留待后续研究。两款模型均在超过 32T token 的高质量数据上完成预训练，数据涵盖数学、代码、网页、长文档等类别，中期训练阶段加入 agentic 数据强化代码能力，训练后阶段采用两步范式，先通过 SFT 与 GRPO 强化学习培养领域专家，再经在线蒸馏（OPD）将能力整合进单一模型。

目前，DeepSeek V4 的四个权重版本均已开源，可在 HuggingFace 或 ModelScope 下载。Base 版本采用 FP8 Mixed 精度，指令版本采用 FP4 与 FP8 混合精度，MoE 专家参数使用 FP4，其余参数使用 FP8，FP4 到 FP8 的反量化无损。本地部署建议将采样参数设为 temperature = 1.0、top_p = 1.0。此次发布未提供 Jinja 格式 chat template，官方在 encoding 文件夹中提供 Python 脚本与测试用例，说明如何将 OpenAI 兼容格式的消息编码为模型输入字符串，以及如何解析模型的文本输出。API 接入方面，V4-Pro 与 V4-Flash 已同步上线，同时支持 OpenAI ChatCompletions 接口与 Anthropic 接口，旧接口名称将于三个月后停止使用，开发者需在截止日期前完成迁移。

值得关注的是，DeepSeek V4 在芯片选择上有重大变化，英伟达不再是唯一选项。DeepSeek 把早期访问权限独家开放给国产芯片厂商，这意味着国产模型在“去英伟达化”上迈出重要一步。V4 性能比肩顶级闭源模型，此前若只能跑在英伟达芯片上，“国产最强开源模型”标签会逊色不少，如今跑通昇腾，叙事更完整，算法自主、代码开源、芯片国产。巧合的是，英伟达 CEO 黄仁勋在与科技播客访谈中表示，DeepSeek 不是无足轻重的进展，还假设 DeepSeek 新模型在华为平台上首发，认为这对美国是可怕结果，因为这意味着 AI 模型在中国 AI 硬件上表现最佳，扩散到全球后会推动中国技术成为世界标准。DeepSeek 用万亿参数级别模型验证昇腾可承载顶级大模型推理，为国产算力生态注入强心剂，国内大厂加大昇腾芯片采购力度，V4 的成功适配提供技术背书，寒武纪、海光信息等其他国产芯片厂商也会加速大模型适配进度，一个顶级开源模型的芯片选择，正撬动整条产业链洗牌。