在内蒙古呼和浩特南郊,一座庞大的数据中心集群正以“看不见的力量”支撑着全国智能生活的运转。作为全国十大数据中心集群之一,和林格尔数据中心集群已聚集近50家行业巨头,包括华为、中国移动及多家国有银行总行,算力总规模突破12.5万P,其中智能算力占比高达96%,绿色算力水平位居全国前列。这里将草原的“风”转化为“电”,再将“电”转化为支撑人工智能、高清游戏、智能导航等场景的澎湃算力。
深夜的数据中心机房内,基础设施网络运维工程师侯晓雯手持巡检设备,穿梭在一排排嗡嗡作响的机柜之间。她的目光紧盯供配电柜的指示灯,侧耳倾听液冷系统的循环声。“我们的工作就像守护数据中心的‘心肺’。”侯晓雯解释道,她负责统筹供配电、制冷等基础设施的运维,确保2.9万架机柜中的服务器稳定运行。在已建成的10栋机房楼中,一座采用冷板式液冷技术的智算中心尤为引人注目——特殊冷却液通过冷板直接带走芯片热量,较传统风冷节能30%以上。
突发故障处置是运维工作的最大挑战。侯晓雯回忆,某次节假日市电中断,她和团队立即启动应急预案:油机与UPS无缝切换供电,制冷系统持续供冷,最终保障了机房业务零中断。“电力或制冷故障会波及整个IT系统,因此我们必须保持7×24小时监控,手机常年不关机。”她坦言,一次巡检步数轻松过万,但最累的是与时间赛跑的故障抢修。
如果说基础设施运维是保障算力的“心肺”,那么算力网络运维则是优化算力的“大脑”。在另一栋机房楼内,工程师赵一帆正检查服务器线缆。他管理的智算集群承载着大模型训练、AI推理等核心任务,任何一台服务器宕机都可能导致巨额损失。“我们通过预防性维护提前排查隐患,利用业务间隙维修,将停机风险降到最低。”赵一帆说。从业14年来,他见证了数据中心从单一机房到规模化集群、从风冷到液冷的技术跃迁,“每次解决复杂故障都很有成就感”。
算力的高效利用不仅依赖稳定运行,更需要精准调度。在和林格尔新区多云算力资源监测与调度平台大厅,电子屏上的数据实时跳动,勾勒出“全国算力一张网”的动态图景。平台负责人兰小汀介绍,通过AI调度算法,这里已实现与北京、芜湖、贵州等地的算力平台互联互通,支持通算、超算、智算资源的统一管理。2023年上线的“绿色算力超市”更创新了交易模式:卖家注册剩余算力,买家像网购一样选择服务,系统自动匹配最优供应商完成交付。
调度精度是算力网络的核心指标。从和林格尔到京津冀枢纽,数据传输时延必须稳定在5毫秒以内——仅相当于人类眨眼时间的百分之一。为达成这一目标,当地建成至合肥、北京等地的400G全光网络,打造“2.5.20”时延圈:2毫秒抵达乌兰察布,5毫秒覆盖北京,20毫秒联通全国主要城市。“我们让算力像水电一样即开即用。”兰小汀说。目前,该平台已支撑万亿级参数大模型连续22天无中断训练,创下行业纪录。
“用户感受不到我们的存在,恰恰说明系统运行完美。”多位受访工程师不约而同提到这句话。在赵一帆看来,幕后工作的价值在于“无人想起时的踏实”——当智能助手秒回信息、游戏画面丝滑流畅、导航路线精准无误时,正是这群“算力管家”在默默托底。











