ITBear旗下自媒体矩阵:

智谱联合清华等推ZCube架构:GPU推理性能跃升 网络成本降三成

   时间:2026-05-21 11:22:45 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能基础设施领域,一场由网络架构创新引领的变革正在悄然发生。随着大模型推理对硬件性能的要求日益严苛,如何突破传统网络架构的瓶颈,成为行业关注的焦点。近期,一项名为ZCube的新型网络架构研究成果引发广泛关注,其成功落地标志着智算基础设施发展迈入新阶段。

传统网络架构在应对长上下文推理与Prefill-Decode分离部署时,逐渐暴露出明显短板。基于多层交换机堆叠的ROFT架构因静态拓扑特性,在KV Cache跨节点传输高度不对称的场景下,极易引发局部热点与PFC反压问题。这种"总带宽充足却局部频繁拥塞"的现象,严重制约了GPU集群的推理效率与资源利用率。

ZCube架构的突破性在于彻底重构了网络拓扑设计。研发团队摒弃了传统的Clos层次化堆叠思路,创新性地采用完全扁平化的两组交换机二部图互联方式。通过取消Spine层交换机,配合双端口网卡实现的单/多轨混合接入机制,构建出独特的流量传输通道。这种设计确保任意两个GPU节点间都存在独享的最优路径,从根本上解决了负载均衡难题。

在GLM-5.1coding生产环境的实践中,ZCube架构展现出显著优势。基准测试数据显示,在保持GPU硬件、软件栈及应用模式不变的情况下,该架构使交换机与光模块的资本支出降低33%,GPU平均推理吞吐量提升15%,首Token时延(TTFT P99)更是大幅下降40.6%。这些数据印证了其兼顾经济性与高性能的系统级突破能力。

技术落地的背后是严谨的工程实践。驭驯网络团队开发了自动化控制与校验工具,成功攻克布线重构与路由策略调整等关键挑战。在千卡集群的升级过程中,通过精密的流量调度与实时监控,确保了系统在两周以上的稳定运行,为超大规模GPU集群的平滑扩展提供了可靠范本。

这项创新不仅改变了网络架构的设计范式,更推动智算基础设施向模型流量驱动的系统协同方向演进。当网络拓扑、通信库与调度策略形成深度耦合,Token生产效率与MaaS综合成本的优化将获得新的突破口。随着行业对推理性能要求的持续提升,ZCube架构的实践价值正在得到越来越多验证。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version