ITBear旗下自媒体矩阵:

上海万卡GPU集群:以超高可用性与多元算力,为AI大模型注入强劲动能

   时间:2026-04-06 19:29:00 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

在上海松江的仪电智算中心,巨大的机房内,上万张GPU设备整齐排列,伴随着持续的风扇轰鸣声,它们与高速网络线缆共同构建起一张庞大的算力网络。每张芯片每秒可完成数十万亿次运算,仅需两天时间,这些芯片汇聚的计算能量便足以媲美三峡水电站一台机组一小时的发电量,彰显出算力在人工智能发展中的核心地位。

要让如此庞大的GPU集群高效协同运转,绝非易事。上海仪电旗下的智算科技团队,凭借着卓越的技术实力,成功实现了集群99.99%的超高可用性,这意味着全年总故障时间被压缩至1小时以内。这一突破,为AI大模型的训练提供了坚实的算力保障,避免了因算力中断可能带来的巨大损失。

智算科技董事长孙跃表示,算力集群的搭建远非简单的加速卡堆叠,它需要复杂的高速网络和强大的调度软件作为支撑。他比喻道,算力集群与AI大模型的关系,就如同电与发电机一般,缺一不可。要让近万张算力芯片通过高效的通讯网络和存储设备,像一台电脑一样整体高效运转,其难度可想而知。而更难的是,这个由1万张卡组成的集群,还需7×24小时不间断地提供算力服务。

面对万卡级GPU集群稳定运行的挑战,智算科技团队展现出了非凡的战斗力。这支平均年龄仅32岁的团队,曾连续79天驻守机房,为了0.1%的性能提升,他们日夜奋战,反复打磨代码。在紧急任务面前,他们打破常规,采用“并行施工+边测边调”的方式,抢抓每一秒进度。正是这样的努力,让他们成功攻克了万卡级GPU集群稳定运行的难题。

除了稳定运行,智算科技还在融合异构芯片方面取得了显著成果。他们的万卡集群已成功适配多种国产算力卡,实现了多元异构算力的融合与优化调度。孙跃介绍,不同业务、不同行业对芯片的需求各不相同,而各类国产算力芯片在细分领域也各具优势。通过异构算力的融合,他们成功将国产算力用起来,满足了不同垂类客户对算力基础设施的差异化需求。

目前,智算科技的万卡集群使用率已接近100%,基本实现了建成即满负荷运转。在某新型科研机构项目中,他们仅用一周时间便完成了近千卡集群的建设与交付,随后又成功部署了万卡集群算力,为国家重点科研任务的推进提供了有力保障。他们还首创了“动态感知调度方案”,使训练效率提升了91%,每年为国家节省的算力成本相当于新建3个数据中心。

在“算电协同”成为国家级战略性新基建工程的背景下,智算科技也在积极探索这一领域。孙跃透露,他们在基础设施和机房建设过程中,进一步扩大了绿电的使用比例,并通过液冷集群提高了能源使用效率,降低了PUE值。同时,他们还在与上下游合作伙伴进行探索,如结合淞沪地区海上风电资源,实现风电直接驱动的海底数据中心,以降低算力成本。

随着新一代人工智能的快速发展,算力需求持续激增。孙跃表示,上海仪电将一方面提高算力基础设施的建设效率和使用效率,另一方面打造开放、灵活、弹性的智算云服务平台。他们发布的智算平台YI CLOUD,旨在面向各类不同领域的用户提供更普惠、更便捷的算力服务。这种服务不仅提供算力,还包括行业所需的语料、模型、智能体等能力的适配,帮助用户在单一垂直领域更高效地使用算力。

上海仪电还在生态建设上发力。作为一家平台型的链主企业,他们希望发挥生态链接的作用,牵引产业链上下游软硬件厂商,包括GPU企业、网络通讯、模型企业、智能体企业等,共同实现国产算力生态协同的创新方案,以赋能国产大模型以及相关AI+应用。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version