DeepSeek近日推出V4预览版并同步开源,其核心突破在于将百万级上下文处理能力确立为官方服务的标准配置。这一技术升级直指大模型商业化痛点——传统Transformer架构下,序列长度每翻倍,计算量将呈平方级增长,导致处理百万token的成本远超市场承受范围。技术报告显示,V4-Pro在百万token场景中,单token推理计算量较前代V3.2降低73%,KV缓存占用压缩至10%,使得同等算力下长上下文并发处理能力提升3至4倍。
针对长文本处理的平方复杂度难题,V4采用CSA与HCA混合注意力架构双管齐下。CSA(压缩稀疏注意力)通过可训练的轻量级索引器,动态筛选需完整计算的token对,替代传统固定稀疏模式,使模型能自主学习注意力分布规律。其技术原型可追溯至V3.2的DSA架构,此次升级进一步优化了稀疏筛选效率。HCA(重度压缩注意力)则在MLA多头潜在注意力基础上,将KV向量映射至低维潜空间,配合FP4+FP8混合精度存储策略,使显存占用再减半。这两项创新直接支撑了27%的FLOPs与10%的KV缓存优化数据。
在超大规模模型训练技术方面,DeepSeek引入两项关键改进。mHC流形约束超连接技术通过强化残差连接的几何结构,缓解了1.6万亿参数模型训练中的跨层信号衰减问题。Muon优化器则替代行业默认的Adam系列,采用矩阵正交化更新机制,在超大规模参数训练中展现出更快的收敛速度与稳定性。这些底层优化为百万级上下文处理提供了训练层面的保障。
性能对比测试显示,V4-Pro在数学推理领域表现尤为突出。Codeforces编程竞赛评分达3206,超越GPT-5.4的3168分;Apex数学竞赛短名单准确率90.2%,高于Gemini的89.1%与Opus 4.6的85.9%。在IMOAnswerBench国际奥数基准测试中,其89.8%的得分仅略低于GPT-5.4的91.4%。Agent能力评估方面,SWE代码验证准确率80.6%与Opus 4.6持平,Toolathlon工具使用测试51.8%的得分则优于后者的47.2%。内部评价称,V4已成为员工智能编程的主力模型,交付质量接近Opus 4.6的非思考模式。
长文本处理能力呈现差异化表现。在MRCR百万级关键信息检索任务中,V4-Pro取得83.5%的准确率,虽低于Opus 4.6的92.9%,但显著领先Gemini的76.3%。而在需要深度综合分析的CorpusQA百万级文档问答测试中,其62.0%的得分与Opus 4.6的71.7%存在差距。这种分化反映出模型在信息定位与综合理解层面的不同侧重。综合知识测试中,SimpleQA-Verified准确率57.9%与前沿科学推理HLE测试37.7%的得分,则暴露出其在通用知识覆盖与尖端领域推理的短板。
同步发布的V4-Flash轻量版模型,总参数2840亿,激活参数130亿,仅为Pro版的18%。该版本同样支持百万上下文与Think/Think Max推理模式,官方测试显示其在简单Agent任务中与Pro版性能相当。此次预览版发布采用"Towards"(朝向)的表述,技术报告已公开CSA/HCA核心设计逻辑,但稀疏训练机制在不同任务场景中的实际表现,将交由开源社区进一步验证。











