滚动资讯

当前位置：首页 > 资讯 > 手机快报 > 正文内容

DeepSeek V4架构革新：昇腾适配升级，未来或携手华为开启token低价时代

时间：2026-04-24 19:13:26 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

备受瞩目的DeepSeek V4模型终于正式发布，此次发布打破了以往在假期或深夜发布的惯例，模型、开源权重、技术报告以及官方文章同步向所有人开放。官方强调此次V4的亮点在于实现“百万上下文的普惠”，不过深入探究会发现，该模型在创新方面成果丰硕。

V4的技术报告向来是行业内关注的焦点，此次也不例外，其精彩程度远超一般新闻。V4的架构持续进化，展现出极高的智能水平。它向整个AI领域表明，无需堆砌参数、购置更多显卡，仅通过对注意力机制和训练方式进行革新，就能轻松应对百万token长文本的挑战。

外界一直关注的用“华为芯片”训练问题，在此次发布中也有了新进展。华为昇腾与NVIDIA并列出现在验证平台中。尽管从技术报告推测，训练部分大概率仍使用英伟达芯片，但在与昇腾的适配上，已达到前所未有的“原生”程度，这一变化背后的意义远超单纯的跑分数据。

官方文档中API价格部分有一行小字透露重要信息：受高端算力限制，目前Pro服务吞吐有限，预计下半年昇腾950超节点批量上市后，Pro价格将大幅下调，这引发了众多猜测与期待。

从技术报告的硬数据来看，以DeepSeek - V3.2为基准，该模型本身效率就颇高。在100万token上下文（大约能容纳三部《三体》）的情况下，DeepSeek - V4 - Pro拥有1.6万亿参数，激活49B，处理一个新token所需算力仅为V3.2的27%，KV缓存仅占10%。而小杯版的DeepSeek - V4 - Flash有284B参数，激活仅13B，算力需求为10%，缓存需求为7%。报告还特别说明，单token推理算力的单位是等效FP8 FLOPs，并非通过低精度取巧，而是换算到与V3.2相同精度标准进行比较。并且，V4系列的路由专家权重采用FP4精度，现有硬件上FP4和FP8峰值算力相同，未来硬件上FP4效率可再提升三分之一，这意味着当前数据并非极限，新硬件到位后还有提升空间。

DeepSeek V4能够实现如此高效，关键在于对注意力机制的改造。传统Transformer处理长文本存在序列长度增加，注意力计算量呈平方级爆炸、KV缓存线性膨胀的问题，这是制约百万token应用的瓶颈。V4的解决办法是从根源上改造注意力机制，总体架构上，注意力层采用CSA和HCA交错配置，前馈层沿用DeepSeekMoE，残差连接用mHC加强，核心是两种新注意力。

CSA即压缩稀疏注意力，其数据流分三路并行。KV token的隐藏状态同时进入三个模块：Token - Level Compressor负责将每4个token的KV缓存压缩成一个条目；Lightning Indexer生成“索引键”用于后续匹配打分，同时生成“索引分数”；查询token的隐藏状态单独进入Lightning Indexer生成查询侧的索引分数。两边数据合并后送入Top - k选择器，从所有压缩块中挑选出最相关的512个（Pro版为1024个），最后将这些选中的压缩块与滑动窗口保留的128个原始token拼在一起，送进核心的多查询注意力计算。索引器实现细节上，查询端先降维减少参数量，再升维到多头索引查询，配合ReLU激活后与压缩索引键计算分数，这一过程是模型在训练中动态筛选重要信息。

HCA是重度压缩注意力，与CSA不同，它去掉了稀疏选择链路，没有Lightning Indexer和Top - k Selector。数据流简单直接，KV token隐藏状态经Token - Level Compressor压缩（压缩比m' = 128，远大于CSA的4），得到的压缩条目直接与滑动窗口KV拼在一起送进MQA，目的是抓取全局结构，避免模型“只见树木不见森林”。两种注意力都配备滑动窗口，保留最近128个token的原始KV不压缩，确保局部依赖无精度损失，同时还采用注意力沉降技术，给每个头一个可学习的sink logit加到注意力分母里，让每个头可选择“什么都不关注”。

报告透露CSA和HCA在Query和KV上只对最后64个维度施加RoPE位置编码，其他维度不编码，同时KV缓存采用混合精度存储，RoPE维度用BF16，其余维度用FP8，进一步减少缓存。为使这套注意力架构落地，缓存管理也重新设计，V4的KV缓存分为“状态缓存”和“经典缓存”。状态缓存为每个请求分配固定大小区域，存储滑动窗口最近128个token的KV以及CSA/HCA中未攒够压缩数量的“尾料”；经典缓存存储已压缩好的条目，每个块覆盖的原始token数是两种压缩比的最小公倍数，以保证两种压缩结果对齐，避免碎片化管理，这是百万上下文从实验室走向生产环境的关键工程基础设施。

V4的聪明不仅体现在推理侧，训练优化也有新举措。此前已公布的Muon优化器，不同于大多数优化器一个参数一个参数调整梯度的方式，它将整个梯度矩阵进行“捋正”运算，使各行更新方向相互独立，每次更新都朝着最干净的方向，同样步数学到更多内容，节省算力。为配合Muon，分布式策略也进行调整，稠密参数限制切分，每个GPU最多管理五个完整矩阵；MoE参数直接拼成大向量等分，不切单个矩阵，梯度通信还进行BF16量化，减少一半通信量。另一项训练优化是mHC——流形约束超连接，针对深层网络信号传输易放大溢出或衰减消失的问题，给残差连接加上数学约束，强制每层混合矩阵满足“每行每列和为1，元素非负”，保证幅度不发散，实现方式是对参数进行多次交替的行归一化和列归一化。报告还提到万亿参数训练遇到损失尖峰问题，通过“预判路由”和“SwiGLU截断”解决。

V4的后训练流程也独具特色，采用“先分后合”的工艺。首先分别对代码、数学、智能体、指令遵循等方向独立训练专家模型，每个专家先进行SFT打底，再用GRPO强化学习，配合领域专属的奖励模型，且奖励模型为生成式，减少对人类标注的依赖。为适应不同推理模式，设置三种档位：Non - think（无思考标签，快速回答）、Think High（显式思维链但受控长度）、Think Max（极限思维模式，给特殊系统提示同时放宽长度惩罚），三种模式在RL训练时采用不同上下文窗口和惩罚系数，使同一套权重能根据场景切换推理深度。然后通过策略蒸馏将所有专才知识融合到统一模型中，采用全词表级别的反向KL散度，保持教师完整的logit分布，这带来巨大计算压力，报告给出解决路径，如教师权重按需加载、不存完整logits、按教师索引排序样本等。

报告中对与华为昇腾关系的阐述也备受关注。3.1节原文提到在NVIDIA GPU和华为昇腾NPU两个平台上验证了细粒度的专家并行方案，两个平台并列出现在验证结论中。该方案核心是将MoE的通信和计算切成更细颗粒，按“波”调度，每个波含一小部分专家，通信完成立即计算，同时下一个波的通信和上一个波的结果回传同步进行，通用推理加速比为1.50 - 1.73倍，RL长尾小批次最高达1.96倍。报告还给出硬件设计公式，每GBps通信带宽对应6.1 TFLOP/s算力可完全隐藏通信，这意味着DeepSeek为硬件厂商定义需求，昇腾950若按此配比设计，跑V4可将利用率拉满。报告提到用TileLang做算子开发，配合Z3 SMT求解器自动验证和优化，同时要求训练推理“批次不变”和“确定性”，这对昇腾新硬件的调试和部署提供基础设施级支持。虽然开源MegaMoE内核仍是CUDA版，主力训练集群大概率仍是NVIDIA，但架构上已为适配昇腾做好准备。

DeepSeek V4的出现改变了行业解决长文本问题的思路。过去主流做法是堆砌资源，如增加显存、提升算力，但边际效益逐渐降低。V4则思考“是否真的需要全记住”，CSA和HCA让模型记忆具有层次感，细颗粒、粗颗粒和最近原文分别存储，这是架构层面对“什么值得记住”的新回答，效率提升显著。而且该方案让硬件选择权回到算法这边，过去芯片决定模型上下文长度，如今算和搬的比例被公式定义，算法引导硬件设计，昇腾被写进验证平台、FP4留出效率冗余，都表明其未打算绑定某一家，这种独立性在当前时间点意义重大。

更多>同类资讯

云起智控智能照明控制器：电脑与手机双控开启城市照明管理新篇章

本文将深入探讨云起智控的智能照明控制器是否能在电脑后台集中管理灯光，并支持手机APP远程控制，揭示其如何全方位满足现代城市照明管理的需求。云起智控的智能照明控制器凭借其多样化的通信方式、便捷的远程控制功能…

04-24

便携式气象站：小巧身躯蕴含大能量，多场景气象观测好帮手

在功能方面，便携式气象站支持实时数据显示，带有触摸屏以便于现场操作。使用便携式气象站时，需注意正确安装，如保持设备水平、选择开阔场地、保证通讯信号稳定等。总的来说，便携式气象站为气象及相关领域提供了一种…

04-24

华为Pura X Max深度体验：大阔屏新玩法，折叠屏体验跃升新境界

华为作为折叠屏产品的重要引领者和推动者，在Pura XMax身上再次实现突破，这是行业首款运用三重复合叠层结构的折叠内屏，内屏抗冲击能力相较于Mate X7得到50%的提升。总结华为Pura X Max的…

04-24

从古蜀飞天梦到现代航天城成都与中国航天共赴星辰新征程

04-24

4月24日长征二号丁运载火箭升空卫星互联网技术试验卫星成功入轨

04-24

长征二号丁火箭再立新功！卫星互联网技术试验卫星成功发射入轨

04-24

OPPO Find X9 Ultra正式发售：影像续航双突破，7499元起开启拍摄新体验

04-24

OPPO Find X9s Pro今日开售：影像升级色彩精准，5299元起享旗舰体验

04-24

北京车展“生命树”下，纵横六款新车诠释中国豪华越野新高度

04-24

问界魔方技术平台亮相北京车展高端SUV矩阵开启智慧出行新篇章

04-24

腾势Z北京车展首秀：以巅峰设计与技术，开启智能电动超跑新纪元

04-24

全新奔驰S级焕新登场：AI科技加持，多动力选择重塑豪华轿车新高度

04-24

极巡科技2026丰县电动车展发力汽车级标准引领智能微出行新体验

04-24

2026北京车展启幕岚图泰山X8亮相外观内饰动力亮点满满引关注

04-24

宝妈跨境创业困境中遇“脉速”ERP，从崩溃到掌控，利润轻松翻番

但现实狠狠打了她一巴掌：昨天刚因为手动改库存导致超卖，被平台罚了款；今天又因为算错了包裹体积重，物流费比预计贵了一倍，这一单不仅没赚，还倒贴了20块。林晓雯一把抱起女儿，亲了一口：“当然，妈妈今天赚了钱，有…

04-24

点击查看更多 +

全站最新

2026北京车展启幕小米Vision Gran Turismo超跑国内首秀展创新魅力

小米YU7 GT即将登场：千匹马力高性能SUV 5月发布续航达705公里

AI“喂饱”英特尔！Q1业绩炸裂，数据中心业务猛增22%

商务部：将7家欧盟实体列入出口管制管控名单

守拙者"降维"：石头科技的第一性原理生意经

赛力斯张正萍与白敬亭同台问界M6北京车展开启首批交付

热门内容

本栏最新

北京车展“生命树”下，纵横六款新车诠释中国豪华越野新高度

问界魔方技术平台亮相北京车展高端SUV矩阵开启智慧出行新篇章

腾势Z北京车展首秀：以巅峰设计与技术，开启智能电动超跑新纪元

全新奔驰S级焕新登场：AI科技加持，多动力选择重塑豪华轿车新高度

极巡科技2026丰县电动车展发力汽车级标准引领智能微出行新体验

2026北京车展启幕岚图泰山X8亮相外观内饰动力亮点满满引关注

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.