在华为全联接大会的会场上,当大屏幕亮起“昇腾”二字时,原本喧闹的会场瞬间安静下来。没有预想中的欢呼与掌声,有人屏息凝神,有人红了眼眶。这一刻,距离华为首次发布昇腾310芯片已过去两千多个日夜,而昇腾系列的正式回归,让所有参与者既感慨又复杂。
华为的AI芯片之路始于2018年昇腾310的发布,次年昇腾910紧随其后。然而,2019年春天的制裁风暴让供应链几近断裂。当时,华为仍按原计划推进昇腾910的商用发布,但暗流已悄然涌动。徐直军回忆,受限于备货量,昇腾910最初仅供应国计民生领域客户,互联网行业的需求被迫搁置。这场制裁不仅打乱了华为的节奏,更将其从技术巅峰推向了孤立境地。
面对外部压力,华为的选择并非退缩。Mate 60手机、鸿蒙系统、metaERP等产品的推出,展现了其技术韧性。但真正的战场在AI算力领域——海思、云计算、数据中心等团队纷纷投入研发,试图在芯片受限的背景下开辟新路径。2025年3月,华为推出的Atlas 900超节点成为关键转折点。这款满配384颗昇腾910C芯片的设备,算力达300 PFLOPS,至今仍是全球算力最大的超节点。其衍生出的CloudMatrix384云服务实例,更被海外机构评价为“领先英伟达、AMD一代”的技术方案。
“制裁逼我们重新定义一切。”徐直军坦言。从光器件到互联协议,从芯片设计到超节点架构,华为被迫走出一条自主之路。例如,英伟达曾允许华为使用其CPU互联协议,但制裁后这一路径被切断,华为只能自主研发灵衢互联协议。这一协议不仅实现了数万颗芯片的协同工作,更被海外企业视为“超节点技术的核心秘密”。
在芯片规划方面,华为展现了激进的迭代策略。至2028年,昇腾系列将推出Ascend 950、960、970三大系列,算力每年翻倍。其中,950系列支持FP8算力1 PFLOPS,970系列则提升至4 PFLOPS;互联带宽从2TB/s扩展到4TB/s;内存容量和访问带宽同步翻倍。这些升级旨在满足AI模型对算力的指数级需求。
但芯片并非华为AI战略的全部。徐直军强调,“超节点+集群”才是核心。以Atlas 950 SuperPoD为例,其支持8192张昇腾卡,算力规模超50万卡;Atlas 960 SuperPoD更达15488张卡,算力百万卡级。这种架构通过灵衢协议将分散的芯片整合为“一台计算机”,实现学习、推理等功能的统一调度。相比之下,英伟达的GB200 NVL72超节点因成本、功耗和可靠性问题,规模大幅缩减。
生态建设是另一大挑战。国内开发者对昇腾生态的接受度仍待提升,徐直军以“恋爱”比喻:“不用怎么知道合不合适?问题要在使用中解决。”尽管华为的工具链与英伟达存在差距,但拒绝兼容CUDA生态的选择源于长远考量。“如果依赖CUDA旧版本,哪天被切断怎么办?”他指出,华为从达芬奇架构到昇腾芯片,已构建起不依赖西方生态的完整体系。
超节点的优势在于将单芯片劣势转化为系统优势。徐直军承认,昇腾芯片在制程和功耗上暂落后于英伟达,但通过超节点架构,华为实现了算力总和的超越。“AI本质是并行计算,384颗芯片的协同效果远超单颗性能。”他进一步解释,超节点像一台计算机,集群则如云服务,通过软件层调度多个超节点,形成弹性算力网络。
灵衢互联协议的开放是华为生态战略的关键一步。与英伟达NVlink的封闭性不同,华为宣布开放灵衢2.0技术规范,旨在吸引更多企业参与算力集群建设。“硬件变现是我们的理念,但灵衢若仅限华为使用,就无法形成生态。”徐直军认为,只有产业雪球滚大,中国AI算力才能真正独立。
华为的技术路线融合了多年通信积累。例如,英伟达超节点采用全铜通信,传输距离仅2米;而华为的光通信策略通过光模块实现低损耗、长距离传输,支持更多芯片互联。这一选择曾被质疑风险过高,但华为凭借光芯片和故障恢复技术,成功将光模块故障率控制在可接受范围。
“这条路是被逼出来的,但也是唯一能走通的路。”徐直军总结。从芯片到超节点,从协议到生态,华为的AI战略已超越技术范畴,成为一场关于系统能力的综合较量。当被问及是否担心模仿者时,他回应:“谁想重复别人的路?我们更愿意开创未来。”