ITBear旗下自媒体矩阵:

DeepSeek V4架构革新:昇腾适配升级,未来或携手华为开启token低价时代

   时间:2026-04-24 19:13:26 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

备受瞩目的DeepSeek V4模型终于正式发布,此次发布打破了以往在假期或深夜发布的惯例,模型、开源权重、技术报告以及官方文章同步向所有人开放。官方强调此次V4的亮点在于实现“百万上下文的普惠”,不过深入探究会发现,该模型在创新方面成果丰硕。

V4的技术报告向来是行业内关注的焦点,此次也不例外,其精彩程度远超一般新闻。V4的架构持续进化,展现出极高的智能水平。它向整个AI领域表明,无需堆砌参数、购置更多显卡,仅通过对注意力机制和训练方式进行革新,就能轻松应对百万token长文本的挑战。

外界一直关注的用“华为芯片”训练问题,在此次发布中也有了新进展。华为昇腾与NVIDIA并列出现在验证平台中。尽管从技术报告推测,训练部分大概率仍使用英伟达芯片,但在与昇腾的适配上,已达到前所未有的“原生”程度,这一变化背后的意义远超单纯的跑分数据。

官方文档中API价格部分有一行小字透露重要信息:受高端算力限制,目前Pro服务吞吐有限,预计下半年昇腾950超节点批量上市后,Pro价格将大幅下调,这引发了众多猜测与期待。

从技术报告的硬数据来看,以DeepSeek - V3.2为基准,该模型本身效率就颇高。在100万token上下文(大约能容纳三部《三体》)的情况下,DeepSeek - V4 - Pro拥有1.6万亿参数,激活49B,处理一个新token所需算力仅为V3.2的27%,KV缓存仅占10%。而小杯版的DeepSeek - V4 - Flash有284B参数,激活仅13B,算力需求为10%,缓存需求为7%。报告还特别说明,单token推理算力的单位是等效FP8 FLOPs,并非通过低精度取巧,而是换算到与V3.2相同精度标准进行比较。并且,V4系列的路由专家权重采用FP4精度,现有硬件上FP4和FP8峰值算力相同,未来硬件上FP4效率可再提升三分之一,这意味着当前数据并非极限,新硬件到位后还有提升空间。

DeepSeek V4能够实现如此高效,关键在于对注意力机制的改造。传统Transformer处理长文本存在序列长度增加,注意力计算量呈平方级爆炸、KV缓存线性膨胀的问题,这是制约百万token应用的瓶颈。V4的解决办法是从根源上改造注意力机制,总体架构上,注意力层采用CSA和HCA交错配置,前馈层沿用DeepSeekMoE,残差连接用mHC加强,核心是两种新注意力。

CSA即压缩稀疏注意力,其数据流分三路并行。KV token的隐藏状态同时进入三个模块:Token - Level Compressor负责将每4个token的KV缓存压缩成一个条目;Lightning Indexer生成“索引键”用于后续匹配打分,同时生成“索引分数”;查询token的隐藏状态单独进入Lightning Indexer生成查询侧的索引分数。两边数据合并后送入Top - k选择器,从所有压缩块中挑选出最相关的512个(Pro版为1024个),最后将这些选中的压缩块与滑动窗口保留的128个原始token拼在一起,送进核心的多查询注意力计算。索引器实现细节上,查询端先降维减少参数量,再升维到多头索引查询,配合ReLU激活后与压缩索引键计算分数,这一过程是模型在训练中动态筛选重要信息。

HCA是重度压缩注意力,与CSA不同,它去掉了稀疏选择链路,没有Lightning Indexer和Top - k Selector。数据流简单直接,KV token隐藏状态经Token - Level Compressor压缩(压缩比m' = 128,远大于CSA的4),得到的压缩条目直接与滑动窗口KV拼在一起送进MQA,目的是抓取全局结构,避免模型“只见树木不见森林”。两种注意力都配备滑动窗口,保留最近128个token的原始KV不压缩,确保局部依赖无精度损失,同时还采用注意力沉降技术,给每个头一个可学习的sink logit加到注意力分母里,让每个头可选择“什么都不关注”。

报告透露CSA和HCA在Query和KV上只对最后64个维度施加RoPE位置编码,其他维度不编码,同时KV缓存采用混合精度存储,RoPE维度用BF16,其余维度用FP8,进一步减少缓存。为使这套注意力架构落地,缓存管理也重新设计,V4的KV缓存分为“状态缓存”和“经典缓存”。状态缓存为每个请求分配固定大小区域,存储滑动窗口最近128个token的KV以及CSA/HCA中未攒够压缩数量的“尾料”;经典缓存存储已压缩好的条目,每个块覆盖的原始token数是两种压缩比的最小公倍数,以保证两种压缩结果对齐,避免碎片化管理,这是百万上下文从实验室走向生产环境的关键工程基础设施。

V4的聪明不仅体现在推理侧,训练优化也有新举措。此前已公布的Muon优化器,不同于大多数优化器一个参数一个参数调整梯度的方式,它将整个梯度矩阵进行“捋正”运算,使各行更新方向相互独立,每次更新都朝着最干净的方向,同样步数学到更多内容,节省算力。为配合Muon,分布式策略也进行调整,稠密参数限制切分,每个GPU最多管理五个完整矩阵;MoE参数直接拼成大向量等分,不切单个矩阵,梯度通信还进行BF16量化,减少一半通信量。另一项训练优化是mHC——流形约束超连接,针对深层网络信号传输易放大溢出或衰减消失的问题,给残差连接加上数学约束,强制每层混合矩阵满足“每行每列和为1,元素非负”,保证幅度不发散,实现方式是对参数进行多次交替的行归一化和列归一化。报告还提到万亿参数训练遇到损失尖峰问题,通过“预判路由”和“SwiGLU截断”解决。

V4的后训练流程也独具特色,采用“先分后合”的工艺。首先分别对代码、数学、智能体、指令遵循等方向独立训练专家模型,每个专家先进行SFT打底,再用GRPO强化学习,配合领域专属的奖励模型,且奖励模型为生成式,减少对人类标注的依赖。为适应不同推理模式,设置三种档位:Non - think(无思考标签,快速回答)、Think High(显式思维链但受控长度)、Think Max(极限思维模式,给特殊系统提示同时放宽长度惩罚),三种模式在RL训练时采用不同上下文窗口和惩罚系数,使同一套权重能根据场景切换推理深度。然后通过策略蒸馏将所有专才知识融合到统一模型中,采用全词表级别的反向KL散度,保持教师完整的logit分布,这带来巨大计算压力,报告给出解决路径,如教师权重按需加载、不存完整logits、按教师索引排序样本等。

报告中对与华为昇腾关系的阐述也备受关注。3.1节原文提到在NVIDIA GPU和华为昇腾NPU两个平台上验证了细粒度的专家并行方案,两个平台并列出现在验证结论中。该方案核心是将MoE的通信和计算切成更细颗粒,按“波”调度,每个波含一小部分专家,通信完成立即计算,同时下一个波的通信和上一个波的结果回传同步进行,通用推理加速比为1.50 - 1.73倍,RL长尾小批次最高达1.96倍。报告还给出硬件设计公式,每GBps通信带宽对应6.1 TFLOP/s算力可完全隐藏通信,这意味着DeepSeek为硬件厂商定义需求,昇腾950若按此配比设计,跑V4可将利用率拉满。报告提到用TileLang做算子开发,配合Z3 SMT求解器自动验证和优化,同时要求训练推理“批次不变”和“确定性”,这对昇腾新硬件的调试和部署提供基础设施级支持。虽然开源MegaMoE内核仍是CUDA版,主力训练集群大概率仍是NVIDIA,但架构上已为适配昇腾做好准备。

DeepSeek V4的出现改变了行业解决长文本问题的思路。过去主流做法是堆砌资源,如增加显存、提升算力,但边际效益逐渐降低。V4则思考“是否真的需要全记住”,CSA和HCA让模型记忆具有层次感,细颗粒、粗颗粒和最近原文分别存储,这是架构层面对“什么值得记住”的新回答,效率提升显著。而且该方案让硬件选择权回到算法这边,过去芯片决定模型上下文长度,如今算和搬的比例被公式定义,算法引导硬件设计,昇腾被写进验证平台、FP4留出效率冗余,都表明其未打算绑定某一家,这种独立性在当前时间点意义重大。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version