ITBear旗下自媒体矩阵:

上海万卡GPU集群:以高效算力与技术创新赋能AI大模型发展

   时间:2026-04-06 14:55:51 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

在上海松江的仪电智算中心内,一个由上万张GPU设备组成的庞大算力网络正在高效运转。每张芯片每秒可完成数十万亿次运算,其两天内的总算力输出,足以媲美三峡水电站单机组一小时的发电量。这一惊人的算力规模,为人工智能模型的训练提供了强大的底层支撑。

为确保这一万卡集群的稳定运行,上海仪电智算科技团队攻克了高故障率芯片协同的技术难题。通过算法优化与并行调度策略,团队将系统可用性提升至99.99%,全年故障时间被严格控制在1小时以内。这一突破不仅保障了多模态大模型在全球范围内的领先训练进度,更避免了因算力中断可能导致的重大损失。

该集群在国产化适配方面同样取得显著进展。团队成功将多种国产算力卡融入系统,实现了异构算力的深度融合与优化调度,设备使用率接近100%。更值得关注的是,团队首创的“动态感知调度方案”使训练效率大幅提升91%,年节省的算力成本相当于新建3个数据中心。目前,该集群已具备快速部署万卡规模的能力,为大规模AI应用落地奠定了基础。

据智算科技董事长孙跃介绍,公司正在推进“算电协同”战略,通过扩大绿色电力应用、采用液冷技术降低能耗(PUE值),并探索利用海上风电为数据中心供电。同时,公司打造的YI CLOUD平台正与产业生态深度协同,推动国产算力在“AI+”场景中的全面赋能,助力各行业智能化转型。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version