马斯克旗下人工智能公司xAI近期因算力利用效率问题陷入舆论漩涡。据内部文件披露,该公司当前模型浮点运算利用率(MFU)仅为11%,远低于行业平均水平,引发业界对技术路线和工程能力的广泛讨论。
根据获取的备忘录内容,xAI总裁迈克尔·尼科尔斯承认当前硬件利用率处于"尴尬的低水平"。公司部署的约55万块英伟达GPU理论上可支撑百倍于实际产出的训练任务,但现有软件系统仅能发挥11%的理论性能。尼科尔斯已要求团队在数月内将该指标提升至50%,以接近行业基准的35%-45%区间。
这家初创公司的硬件配置堪称豪华,拥有H100和H200系列GPU组成的庞大集群。尽管这些芯片较最新Blackwell架构落后一代,但其规模仍令市场震惊。但实际运行中,显存读取速度与计算核心的匹配失衡导致大量算力闲置,网络拓扑中的微小瓶颈在数万节点同步时被急剧放大。
技术分析显示,多重因素制约着系统效率。HBM显存的慢速读取迫使计算单元频繁等待数据,跨GPU通信产生的额外开销进一步蚕食有效算力。Lambda实验室指出,显存压力、冗余的激活值重计算以及张量并行策略缺陷,共同构成了拖累MFU的系统性障碍。
值得关注的是,xAI的基建速度创造了行业纪录。其Colossus超级计算机仅用122天便完成部署,GPU集群规模在短期内实现指数级增长。但这种激进扩张策略暴露出软件优化的严重滞后,硬件堆砌与工程能力之间的断层成为制约发展的关键瓶颈。
横向对比显示,meta和谷歌凭借成熟的软件栈分别达到43%和46%的GPU利用率。即便在早期GPT-3训练阶段,21%-26%的MFU也显著高于xAI当前水平。这种技术代差不仅体现在数字层面,更反映出从硬件部署到系统优化的完整技术链条构建难度。







