ITBear旗下自媒体矩阵:

AI扩张浪潮下,数据中心韧性建设面临新挑战与潜在风险

   时间:2026-05-19 05:26:33 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

数据中心行业正面临新的挑战与变革。根据Uptime Institute最新发布的年度研究报告,尽管行业整体宕机事件已连续五年呈下降趋势,但这一改善态势正逐渐放缓,且一些新兴风险因素开始显现。报告指出,全球数据中心运营商在提升系统韧性的同时,不得不应对来自外部基础设施、能源供应及新兴技术等多方面的压力。

电力故障仍是导致宕机的主要原因,但风险形态正在发生变化。报告显示,不间断电源(UPS)系统、转换开关及发电机等传统设备的故障仍是主要诱因,但电网约束加剧和高密度工作负载的普及正在引入新的压力点。例如,亚马逊AWS北弗吉尼亚设施近期发生的宕机事件,便是由冷却系统故障引发,凸显了高密度计算环境对基础设施的严苛要求。

外部因素对数据中心稳定性的影响日益显著。Uptime Institute Intelligence研究执行总监安迪·劳伦斯指出,IT服务中断越来越多地源于海底电缆切断、网络攻击等外部事件,而非数据中心内部问题。尽管全球范围内针对数据中心的蓄意破坏行为仍属罕见,但电网稳定性下降、网络威胁增加及电缆切断事件等风险正在累积。例如,过去一年中,多起因海底电缆故障导致的区域性服务中断事件,已引起行业高度关注。

宕机成本持续攀升成为行业另一痛点。报告显示,连续第二年有五分之一的受访企业表示单次宕机损失超过100万美元,十分之一的企业称其最近一次宕机造成了严重或极其严重的影响。这一趋势反映出,随着数字化转型的深入,企业对数据中心可靠性的依赖程度越来越高,任何中断都可能带来巨大的经济损失。

人工智能(AI)的快速发展正在重塑数据中心行业格局,同时也对系统韧性提出新挑战。劳伦斯解释称,AI优化设施的规模和设计可能在未来推高宕机率。由于AI推高了机架密度,加大了冷却系统的压力,并缩短了冷却系统的持续运行时间,行业可能正在进入一个宕机风险趋于平稳甚至略有上升的阶段。AI工作负载的波动性显著,对现场供电系统形成不规则冲击,若缺乏相应缓冲装置,发电设备可能因此受损。

现场自发电的普及被视为一把双刃剑。尽管自发电提升了能源自主性,但燃气轮机、电池和燃料电池等设备的引入也带来了新的风险。分析机构Omdia企业基础设施高级研究总监弗拉德·加拉博夫指出,AI工作负载的峰谷特性会产生快速瞬态波动,需要配置专用电容器组加以吸收,否则可能对发电设备造成损害。他强调,现场发电基础设施必须围绕发电设备进行系统性设计,而非简单部署了事。

超大规模数据中心对区域电网的系统性风险也引发关注。报告提出,随着数据中心规模不断扩大,其对区域电网的稳定性构成潜在威胁。尽管运营商正在推进相关缓解措施,但近年来系统性故障的发生概率似乎有所上升。需求响应和电力交易在压力或用电高峰期间的广泛应用,也可能带来额外风险。

行业专家普遍认为,AI基础设施的扩张正在迫使运营商重新审视韧性策略。Dell'Oro Group研究总监亚历克斯·科迪维尔表示,这一过程早在云计算时代便已开始,随着规模扩大,运营商开始重新审视自身的冗余设计。例如,超大规模运营商探索放弃UPS的设计方案已有近十年历史,而UPS曾是数据中心电力韧性的象征。他补充说,AI设施所采用的具体技术,从液冷到高压配电,也可能因其固有局限性及技术相对较新而引入风险。

Uptime Institute确认将于近期发布更多针对AI数据中心韧性的专项研究。相关报告的执行摘要及网络研讨会内容已在其官网上线,为行业提供更深入的洞察与指导。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version