近期,科技界迎来了一则震撼人心的消息:Oracle公司宣布将斥资高达400亿美元,从Nvidia公司采购最新研发的GB200超级芯片,旨在强化与OpenAI的合作,为其提供前所未有的计算能力支持。这一举措标志着Oracle在人工智能领域的又一次重大布局。
据悉,这批超级芯片将部署在美国德克萨斯州阿比林市新建的“星门”数据中心,这是Oracle在美国的首个此类设施。GB200超级芯片在Nvidia的GTC大会上首次亮相,集成了Blackwell GPU和Grace CPU,性能卓越。每36个GB200芯片组成一个NVL72系统,能提供每秒1.4exaFLOPS的稀疏FP4计算能力。按照规划,Oracle将在1.2吉瓦的设施内安装约11000个机架系统,整体计算能力接近16zettaFLOPs,这无疑将大幅提升其数据处理和人工智能应用的效率。
然而,这一雄心勃勃的计划也面临着不小的挑战。阿比林数据中心目前的电力供应仅为200兆瓦,远远无法满足全部机架系统的运行需求。据估算,若要充分利用这些超级芯片的潜力,至少需要1.45吉瓦的电力,其中包括电力和冷却系统的损耗。这意味着,在当前电力供应下,数据中心仅能支持约1500个NVL72机架和54000个GB200超级芯片的运行。
尽管面临电力供应的难题,Oracle与数据中心运营商Crusoe仍在积极寻求解决方案。他们指出,并非所有机架系统都会同时达到最大功耗,而且阿比林数据中心由八栋建筑组成,Oracle不太可能将所有超级芯片集中在一个训练集群中。相反,他们可能会将部分芯片用于推理、合成数据生成、强化学习等其他工作负载,这些任务对系统资源的消耗相对较低。
如果Oracle和Crusoe能够成功克服电力限制,阿比林数据中心有望成为美国最强大的AI超级计算机之一,其计算能力将远超埃隆·马斯克的Colossus超级计算机。位于田纳西州的Colossus系统虽然配备了近800exaFLOPS的稀疏FP8计算能力,但目前仍依赖多台天然气涡轮机供电,尚未完全稳定。
OpenAI的“星门”项目也在积极推进国际化进程。他们计划与Oracle、Nvidia、Cisco等公司合作,在阿联酋建立新的计算能力中心。这一项目预计将在2026年上线首个200兆瓦的电力阶段,进一步拓展全球范围内的人工智能计算能力。