在2025世界智能产业博览会上,一场关于AI计算开放架构的发布引发行业震动。中科曙光联合AI芯片、整机制造、大模型开发等20余家产业链企业,共同推出国内首个AI计算开放架构及AI超集群系统,标志着国产算力生态从“各自为战”转向“协同突破”的新阶段。
此次发布的AI超集群系统堪称“技术集大成者”。单机柜支持96张加速卡,算力突破100P,并可扩展至百万卡规模。其核心优势在于打破专有生态壁垒——系统兼容多品牌GPU加速卡,支持CUDA等主流软件生态,同时开放CPU与AI加速器接口协议、加速器互连协议等七项核心技术。中科曙光智能计算产品事业部总经理杜夏威强调:“这不是简单的硬件堆砌,而是通过深度合作实现技术互补,让每个环节的企业专注自身优势领域。”
行业痛点催生创新需求。当前国内算力市场存在结构性矛盾:一方面,数据中心国产化比例要求提升,政策窗口指导推动国产卡占比从两成向更高水平迈进;另一方面,大模型客户对“先进算力+国产化算力”混训能力提出明确需求。然而,异构计算的技术障碍始终存在——不同芯片的算子库差异导致整合难度大,硬件协调需精准预测GPU性能,而产业生态长期依赖国际主流框架,惯性思维难以打破。杜夏威直言:“混训效率随加速卡数量增加而急剧下降,行业急需统一标准。”
中科曙光的底气源于十年积累。高级副总裁李斌透露,公司已建设20余个大规模算力集群,部署超50万张异构加速卡,覆盖从大型机到超大规模系统的全链条。这种沉淀使其成为串联上下游的关键角色:既避免企业重复研发不同架构,又能整合分散的算力资源。例如,新系统通过“以存提算”技术,利用Burstbuffer数据缓存和超级隧道优化数据传输,使GPU算力效能提升55%;千卡集群大模型训推性能达到行业主流水平的2.3倍,开发效率提升4倍,人力和时间投入降低70%。
稳定性是大规模集群的“生命线”。中科曙光将传统被忽视的“基础工作”转化为竞争优势:新集群平均无故障时间(MTBF)提高2.1倍,故障修复时间(MTTR)缩短至47%,并逐步推广不影响业务运转的故障替换技术。在散热领域,其相变浸没液冷设备成为亮点——8块GPU和2块CPU浸泡在沸点仅50度的特殊液体中,气泡持续带走热量,形成稳定的“蒸汽轨道”。曙光数创CTO张鹏算了一笔账:液冷技术使PUE降至1.04,能耗节省远超传统风冷。
从冷板液冷到浸没技术的突破,折射出行业对极致效能的追求。张鹏指出,当前智算中心负载变化率极快,单机柜功率密度在几年内从60千瓦飙升至300千瓦,传统散热方式已难应对。中科曙光自2011年布局静默式冷板液冷,2015年量产TC40冷板式服务器,如今在浸没技术上再次领先。这种技术迭代不仅降低运营成本,更为高密度计算提供了可能。
这场发布被视为国产算力生态的“安卓时刻”。在“苹果生态”主导的市场中,中科曙光试图通过开放架构构建多元包容的生态系统。杜夏威认为,异构计算不是简单集成多品牌硬件,而是通过深度合作形成产业支撑。随着国家先进计算产业创新中心“AI计算开放架构联合实验室”的启动,国产算力或许正站在突破瓶颈的关键节点上。