ITBear旗下自媒体矩阵:

DeepSeek V4适配华为昇腾,国产AI推理成本大降挑战国际巨头

   时间:2026-04-27 12:27:21 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能算力领域,英伟达曾凭借GPU的卓越性能与CUDA生态优势,长期占据主导地位,其芯片被几乎所有大模型采用,市场份额超过90%,毛利率高达75%,成为行业最大赢家。然而,当前这一格局正面临双重挑战:AI产业重心从“训练”向“推理”转移,以及国产大模型在推理成本上的突破性进展。

随着AI智能体的兴起,算力需求加速向推理环节倾斜。云基础设施提供商Nebius的专家指出,传统按GPU型号和使用时长计费的模式正被“每百万Token成本”取代。企业更关注实际处理效率,而非芯片算力峰值。Omdia数据显示,推理已占企业AI工作负载的90%至95%,推动Token计价成为主流。例如,英伟达H100按需使用每小时约2.95美元,而长期合同下可降至1.50美元;但用户更在意的是处理100万个Token(约75万英文单词或40万中文字符)的成本,这成为衡量推理效率的核心指标。

为降低每Token成本,谷歌、亚马逊、meta等科技巨头纷纷投入巨资研发面向推理的AI专用芯片(ASIC)。高盛报告显示,谷歌与博通合作的TPU在推理成本上已接近英伟达:从TPU v6升级至v7后,单位Token成本下降约70%,与英伟达GB200 NVL72持平,部分场景甚至更具优势。谷歌已利用TPU训练Gemini等模型,并部署给Anthropic、meta等外部企业。若TPU向第三方开放销售,分析师预测其长期市场份额有望达20%。

美国芯片创企Cerebras也加入竞争,其与OpenAI签订超200亿美元合作协议,旨在为后者“去英伟达化”战略定制推理芯片。该公司于4月提交IPO申请,目标融资30亿美元,估值达350亿美元。与此同时,英伟达通过收购轻量化推理场景优势企业Groq进行反击:2025年以200亿美元收购其LPU架构后,Groq芯片每秒可处理800个Token,是英伟达芯片的近两倍;每百万Token成本仅5至10美分,仅为英伟达B系列的40%。

国产大模型DeepSeek V4系列的发布进一步冲击了英伟达的定价权。该系列模型与华为昇腾等国产AI芯片深度适配,API服务不再依赖英伟达GPU。其中,V4-Pro参数规模达1.6T,激活490亿,在数学、STEM和编程等高难度任务中表现优于多数开源模型,性能接近GPT-5.4和Claude Opus 4.6-Max;V4-Flash则通过降低参数规模换取更低延迟和成本。根据定价,V4-Flash输入价格为1元/百万Token,输出2元/百万Token;V4-Pro输入12元/百万Token,输出24元/百万Token。相比之下,OpenAI的GPT-5.5输出定价高达30美元(约205元人民币)/百万Token,DeepSeek的成本仅为其约1/100。

DeepSeek V4系列成本优势源于架构优化,包括1M超长上下文处理、KV Cache优化和FP4精度支持等技术,均指向降低单位Token推理成本。其官方技术报告显示,细粒度专家并行架构在华为昇腾芯片上实现1.50至1.73倍性能提升,延迟敏感场景最高加速1.96倍。目前,华为昇腾、寒武纪、海光信息等八家国内主流AI芯片厂商已完成DeepSeek V4的兼容性验证与技术适配。DeepSeek还透露,随着华为昇腾950超节点下半年批量上市,V4-Pro价格将进一步下调,暗示当前服务已基于昇腾芯片。

英伟达CEO黄仁勋此前曾警告,若DeepSeek率先在华为平台发布,对美国将是“灾难性”的。他承认,限制对华出口AI芯片短期内可能延缓中国AI发展,但长期会推动中国形成独立生态链。这一判断正在成为现实:DeepSeek V4系列不仅摆脱了对英伟达的依赖,更通过与国产芯片的深度适配,构建起更具性价比的推理解决方案。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version