随着人工智能技术的飞速发展,模型发展的两极化趋势愈发显著。在企业级应用层面,小参数模型凭借其高效性和实用性,迅速成为市场宠儿;而在另一端,通用大模型的参数规模不断攀升,正式迈入万亿参数的新纪元。
MoE(Mixture of Experts)高效模型架构的出现,为大模型参数的持续增长提供了有力驱动。例如,采用MoE混合专家架构的KIMI K2开源模型,其参数量高达1.2万亿,但每个Token在推理时仅需激活32B参数,展现了高效与庞大的完美结合。
然而,万亿参数时代的到来,也对算力系统架构提出了新的挑战。庞大的算力需求成为首要难题,以GPT-3为例,其1750亿参数的训练量就需要2.5万张A100 GPU运行90-100天,万亿参数模型的算力需求更是数十倍于此,传统计算架构难以支撑。
模型并行和数据并行的分布式训练虽然能够分摊计算压力,但跨节点的通信开销却会大幅降低算力利用率。GPT-4在训练时的算力利用率仅为32%-36%,主要受限于显存带宽导致的“内存墙”问题。超大规模MoE模型的训练稳定性同样面临挑战,参数和数据量的激增导致梯度范数频繁波动,影响收敛效率,同时KV cache数量的激增也带来了巨大的存储空间需求。
以FP16格式计算,万亿参数模型的权重就需要约20TB显存,加上动态数据,实际内存需求可能超过50TB。长序列的训练还会使计算复杂度呈平方级增长,进一步加剧内存压力。这些需求远远超出了传统AI服务器的显存能力,亟需构建具有更大显存空间的计算系统。
面对这些挑战,阿里云提出了全局负载均衡损失(Global-batch LBL),通过跨Micro-batch同步专家激活频率,在保障全局均衡的同时允许局部波动,有效提升了模型性能。同时,随着大模型技术从训练转向推理场景,算力需求也在逐渐转移。大模型推理对分布式计算通信延时要求极高,以MoE架构模型为例,其分布式训练涉及大量跨设备通信,通信时间占比可高达40%。
在此背景下,构建大规模Scale Up系统成为解决算力挑战的最优解。传统Scale Out集群通过增加节点数量扩展算力,但节点间通信瓶颈在万亿参数模型训练中被放大。Scale Up系统通过超节点技术,将数百颗AI芯片封装为统一计算实体,实现跨节点通信性能接近节点内水平。从应用角度出发,面对单点算力/显存的天花板,构建大规模Scale Up系统,通过并行计算技术将模型权重与KV Cache拆分到多个AI芯片上协同工作,是解决万亿参数模型计算挑战的唯一可行路径。
浪潮信息在近日举办的2025开放计算技术大会上发布了面向万亿参数大模型的超节点AI服务器“元脑SD200”。该产品基于浪潮信息创新研发的多主机低延迟内存语义通信架构,以开放系统设计聚合64路本土GPU芯片,可单机运行1.2万亿参数Kimi K2模型,并支持多模型同时运行和多Agent协同按需调用。
元脑SD200基于全局路由自动构建技术,实现64卡P2P全互连与业务感知的拓扑动态切换,并配合多层级通信机制降低了时延。同时,依托开放PD分离框架,支持异步KV Cache高效传输与差异化并行策略,在提升业务性能的同时保持对多元算力的兼容性。
在硬件架构创新的同时,软件系统的搭建同样关键。软硬协同成为解决万亿参数大模型算力瓶颈的核心路径。硬件能力的释放需要软件层的深度适配,例如字节跳动COMET技术通过动态KV缓存重组,将MoE模型的通信延迟大幅降低,使超节点硬件利用率突破90%。浪潮信息在元脑SD200的开发过程中,也针对3D Mesh系统架构开发了一套PD分离框架,通过软硬协同优化系统性能。
随着数据中心功率的增加和碳中和进程的推进,平衡功耗与效率成为企业需要考虑的重要因素。使用超节点时,功耗密度已达兆瓦级,软硬协同成为破局关键。唯有让硬件特性与软件需求形成闭环,才能真正突破“内存墙”、“通信墙”的桎梏,将超节点的算力优势转化为大模型落地的实际效能。