6月27日消息,随着AI从模型进入应用的竞争阶段,产业关注点正悄然发生变化。如果说过去衡量AI能力的重要指标是模型参数和算力规模,那么当下业内更关注的则是Token生产效率。尤其对于运营商,Token经营正在成为继流量经营之后新的增长曲线。而随之而来的问题是,运营商何以获得新的增长曲线?
在近日举办的2026 MWC上海期间,华为从超节点架构,到开放的昇腾生态,再到存算协同与AIDC平台给出了答案。
算力底座:Token生产的核心引擎与运营商转型基石
众所周知,过去几年,大模型的快速发展让AI产业经历了一轮"堆算力"的比拼。然而,当行业进入智能体和企业AI等全面落地阶段之后,仅靠增加GPU数量已经越来越难解决问题。
究其原因,在AI落地之后,Token已经成为AI时代真正的"生产资料"。因为无论是大模型训练,还是推理服务,本质上都是在持续不断地产生Token。而运营商未来提供的AI服务中,无论是AI客服、AI家庭助手、企业数字员工,还是行业智能体,本质上都是围绕Token进行生产、调度、流转和消费。这意味着,真正决定竞争力的不再只是拥有多少算力,而是在相同资源投入下能够生产多少Token,以及能否稳定、持续地输出Token。
基于此,行业对于算力底座也自然提出了新的要求,即不仅要有更大的计算能力,还要具备更低时延、更高互联效率、更强系统的协同能力。在这一背景下,超节点(SuperPod)正在成为当前AI基础设施发展的重要方向。
需要说明的是,与传统集群相比,超节点并不是简单增加更多计算卡,而是通过高速互联,把大量AI处理器组织成一台"逻辑上的超级计算机",让算力资源真正实现统一调度和计算。而华为基于灵衢互联打造的Atlas 950 SuperPod正是体现了这一思路。
具体表现在其以单柜64卡为基本单元,最大支持8192张昇腾NPU高速互联,通过超大带宽、超低时延以及统一内存编址,将原本分散的算力资源整合成为统一计算平台,更适合超大模型训练以及高并发推理场景。需要说明的是,这种变化带来的意义,并非只是训练速度的提升。对于运营商来说,更重要的是Token供给能力更加稳定。
例如当未来数亿用户同时调用AI助手、视频生成、智能客服等服务时,超节点能够有效减少跨节点通信瓶颈,提高整体Token吞吐能力,从"提升单卡性能"转向"提升系统整体产能"。
更值得关注的是,这一架构已经开始走向规模化应用。相关资料显示,基于灵衢1.0打造的Atlas 900智算超节点自2025年开始交付以来,已经规模部署超过550套,并应用于互联网大模型训练、金融实时风控、能源调度、港口智能化以及制造业质检等多个行业。
由此可见,AI时代的竞争正在从芯片逐渐演变为系统架构,而超节点正成为支撑Token规模化生产的重要基础设施。
昇腾生态开源开放:为开发者构建好用易用的AI开发底座
如果说上述超节点解决的是“算得动、算得快”,那么生态解决的就是“谁来用、怎么用、用得顺”的问题。事实是,如果没有生态,算力就容易停留在资源堆叠;有了生态,算力才能真正转化为产品能力和行业解决方案。对运营商来说,AI基础设施不只是采购设备,而是能否快速形成可运营、可复制、可持续迭代的开发与服务体系。
基于此,华为近年来持续推进昇腾生态建设,其核心思路正是降低开发门槛,提高模型迁移效率,让开发者能够更容易使用国产AI算力。
例如持续推进CANN异构计算架构开源开放,通过分层解耦,将算子库、图计算、编程语言、加速库等基础软件能力向开发者开放,同时深度支持PyTorch、vLLM、SGLang、xLLM、VeRL、Triton、TileLang等主流开源框架,并已适配超过65个主流大模型。而这种开放策略就是为了帮助开发者完成从"能用算力"到"用好算力"的转变。
具体到运营商,其未来不仅需要部署AI基础设施,更需要快速推出面向个人、家庭以及企业市场的包括个人AI助理、家庭智能体、企业智能客服、行业Agent等新型AI业务,这些均需要大量开发者持续参与创新。如果在此过程中,每一个模型迁移都需要大量重新开发;每一个应用部署都需要复杂适配,那么Token经营就很难真正形成规模。而开放生态则能够有效降低开发成本,提高应用上线速度,加速Token消费场景的不断丰富,让运营商能够更快完成从传统连接服务提供商向AI服务运营商的角色转变。
而从更高的产业发展规律看,开放生态不仅决定开发效率,也决定整个产业链的创新速度。所以对于运营商而言,一个成熟、开放、持续演进的AI开发底座,无疑是其未来Token经营的重要竞争优势。
技术与平台创新:降低单位Token成本,让每瓦产出更多Tokens
如前述,超节点解决的是算力组织效率,开放生态解决的是开发效率,那么真正决定运营商商业模式能否成立的则是Token生产成本。尤其是当智能应用进入大规模爆发阶段,算力消耗的经济学特性已经成为全行业关注焦点的当下,显得尤为重要。
需要说明的是,在商业逻辑中,任何商品的大规模普及都必须建立在成本持续降低的基础之上,Token也不例外。特别对于运营商,如果生产单位Token的资源消耗(包括电力、设备折旧、带宽成本等)过高,其将陷入算力成本高企、商业回报不足的结构性困境。
因此,如何在技术层面大幅提升大模型推理的吞吐效率,以及如何在平台与基础设施层面降低数据中心的能耗,成为决定Token经营能否实现规模化可持续发展的核心。而唯有实现“单位Token成本最低”与“每瓦电力Token产出最多”,运营商才能真正筑牢Token规模化持续运营的工程能力。正是围绕上述目标,华为提出了存算协同与AIDC算力服务平台等关键能力。
以存算协同为例,传统AI推理过程中,大量历史推理数据需要频繁在存储与计算之间搬运,数据传输往往成为影响推理效率的重要瓶颈。而华为通过新一代记忆存储和存算直通能力,让高频数据能够更快进入计算侧,实现数据"一跳直达HBM",减少中间搬运链路,典型场景下时延降低约50%,同时通过对KV Cache等历史推理数据进行全生命周期管理,实现"以查代算",减少重复计算,将更多算力释放给新的Token生成。
值得一提是,这一能力已经开始在运营商场景得到验证。相关资料显示,湖北移动联合华为已完成全国运营商首个AI推理加速方案验证,其基于OceanStor A800存储与Ascend A3超节点架构,在UCM推理记忆数据管理能力的支持下,实现Token吞吐率最高提升372%。这意味着,在相同算力投入下,可以支撑更多AI并发访问,同时有效降低单位Token的生产成本。
随着智算中心规模不断扩大,能耗已经成为影响运营商AI业务发展的重要因素。对此,华为进一步推出了AIDC算力服务平台,将供配电、制冷、液冷等设施层能力,与IT层训练、推理任务调度及性能优化协同管理,实现能源与算力的动态匹配,推动AIDC从传统"被动供能"向"主动优化Token产出"演进。据称,该平台在典型场景下可使AIDC每瓦Token产出提升约20%,帮助运营商在相同能耗条件下承载更多AI业务。
写在最后:毋庸置疑,AI时代的运营商竞争,正在从网络能力竞争进一步延伸到Token生产能力竞争。而从超节点重构系统级算力,到昇腾生态降低开发门槛,再到存算协同和AIDC平台持续优化单位Token成本,华为试图构建的并非单一产品,而是一套覆盖算力架构、开放生态和运营平台的完整底座,真正构成了运营商进入Token经营时代的基础设施。











