在上海松江仪电智算中心,一个由上万张GPU设备构建的庞大算力网络正高效运转。每张芯片每秒可完成数十万亿次运算,其两天的总算力输出足以媲美三峡水电站单机组一小时的发电量。这一算力集群的建成,标志着我国在高性能计算领域迈出了关键一步。
为确保万卡集群的稳定运行,上海仪电智算科技团队突破了高故障率芯片协同的技术瓶颈。通过算法优化与并行调度技术,集群实现了99.99%的超高可用性,全年故障时间被严格控制在1小时以内。这一成果不仅保障了多模态大模型的全球领先训练,还避免了重大算力损失,为人工智能研发提供了坚实支撑。
该集群在国产算力卡适配方面取得重大进展,已成功兼容多种国产芯片,实现了异构算力的融合与优化调度,设备使用率接近100%。团队自主研发的“动态感知调度方案”使训练效率提升91%,年节省的算力成本相当于新建3个数据中心。集群还具备快速部署能力,可满足大规模算力需求的弹性扩展。
据智算科技董事长孙跃介绍,公司正在推进“算电协同”战略,通过扩大绿色电力应用、采用液冷技术降低能耗指标(PUE),并探索利用海上风电驱动数据中心。同时,依托YI CLOUD平台及生态协同体系,推动国产算力在人工智能与产业融合领域实现全面赋能,助力数字经济高质量发展。











