ITBear旗下自媒体矩阵:

DeepSeek-V4正式上线开源 国产芯片助力 开启百万上下文处理新篇章

   时间:2026-04-24 21:06:10 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来重要进展,DeepSeek-V4模型预览版正式上线并同步开源。该模型在上下文处理能力上实现突破性提升,将原有128K的上下文窗口扩展至1M,支持百万字级超长文本处理,同时输出长度上限达到384K tokens。为优化长文本处理效率,研发团队首次引入KV Cache滑窗机制与压缩算法,通过架构创新显著降低Attention计算与显存开销,特别强化了对智能体(Agent)与代码生成(Coding)场景的支持能力。

在模型架构方面,DeepSeek-V4推出双版本配置:旗舰版V4-Pro拥有1.6T参数规模与49B激活参数,轻量版V4-Flash则采用284B参数与13B激活参数。两个版本均支持"非思考模式"与"思考模式"双运行机制,通过DSA稀疏注意力机制实现token维度压缩,使百万级上下文处理成为标准配置。测试数据显示,V4-Pro在Agentic Coding评测中达到开源模型最优水平,其交付质量在非思考模式下接近Opus4.6,世界知识测评表现仅次于闭源模型Gemini-Pro-3.1,数学与竞赛代码能力更比肩顶级闭源模型。

轻量版V4-Flash在保持接近Pro版的推理能力同时,将推理成本降低60%以上。该版本在8K输入场景下可实现10ms级时延,单卡解码吞吐量达1600TPS,特别适合对响应速度要求严苛的实时应用场景。尽管在世界知识储备方面略逊于Pro版,但在简单Agent任务中展现出与旗舰版相当的处理效能,为成本敏感型应用提供了优质解决方案。

国产芯片生态迎来重要突破,华为昇腾、天数智芯、寒武纪等厂商完成对DeepSeek-V4的全面适配。昇腾950超节点实现V4-Pro 20ms、V4-Flash 10ms的低时延推理,其64卡集群部署方案在8K输入输出场景下可达成2000+TPS的单卡性能。天数智芯通过天垓训练芯片与智铠推理芯片的组合方案,实现对模型全场景应用的承接。寒武纪则基于vLLM框架完成双版本Day 0级适配,相关代码已开源至GitHub社区。

在商业应用层面,DeepSeek-V4采取差异化定价策略:V4-Pro输入服务(缓存命中)定价1元/百万tokens,输出服务24元/百万tokens;V4-Flash相应价格为0.2元与2元。受制于高端算力供应,当前V4-Pro服务吞吐量存在限制,但随着昇腾950超节点下半年批量投产,官方预计Pro版服务价格将出现大幅下调。这种硬件解耦策略标志着模型运行不再依赖单一算力平台,为多生态协同发展奠定基础。

华为云同步推出适配服务,其MaaS平台已上线V4-Flash API的免部署调用功能,开发者可通过Tokens服务直接接入模型能力。这种云边协同的部署模式,结合国产芯片的硬件支持,构建起从训练到推理的完整生态链。据技术文档披露,DeepSeek团队在模型优化过程中,同步完成了细粒度专家并行方案在英伟达GPU与昇腾NPU的双重验证,展现出跨平台适配的技术实力。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version