ITBear旗下自媒体矩阵:

AI芯片功耗激增,大模型时代呼唤冷却技术新飞跃

   时间:2025-05-06 08:55:01 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

随着人工智能技术的飞速发展,AI芯片的功耗与发热问题逐渐成为制约其广泛应用的关键因素。高功耗不仅增加了企业的运营成本,还可能引发芯片过热、短路等风险,严重影响AI训练和推理的效率和效果。因此,一场针对AI芯片冷却技术的革命迫在眉睫。

近年来,全球数据量呈爆炸式增长,从2015年的10EB到预计2025年的175ZB,再到2035年可能达到的2432ZB,数据量的激增对AI芯片的算力提出了更高要求。然而,边缘AI的发展面临着性能、功耗和成本之间的平衡挑战,尤其是在电池供电的低功耗设备中。同时,构建一个涵盖工具链、语言、兼容性和易开发性的统一生态系统,对于推动AI技术的普及和规模化应用至关重要。

AI应用如ChatGPT和大型语言模型(LLM)等,依赖于“并行计算”技术,即由芯片网络同时执行多项计算或处理的海量计算工作。其中,GPU作为人工智能基础设施的核心,擅长处理高性能并行计算工作,但其强大的处理能力也带来了更高的能量输入和热量输出。

以高端GPU为例,其功率密度约为CPU的四倍,这给数据中心规划带来了重大挑战。现代AI数据中心所需的电源远超传统数据中心,即使是亚马逊、微软和Alphabet等巨头的尖端超大规模数据中心,也主要由CPU驱动。Nvidia的A100 AI芯片功耗约为400W,而其最新微芯片H100的功耗更是高达700W,接近微波炉的功耗。若超大规模数据中心用这些GPU替换CPU服务器,所需功率将增加4-5倍,相当于一座核电站的发电量。

功率密度的提升导致芯片产生的热量显著增加,对冷却系统提出了更高要求。未来人工智能驱动的数据中心将需要进行全新设计,以适应电力和冷却的变革。业内专家预测,我们正处于数据中心十年现代化升级的初期阶段,旨在使其更加智能化。

为了应对AI芯片的功耗和发热问题,台积电推出了3DVC(3D Vapor Chamber,三维均热板)技术。这是一种针对高性能计算(HPC)和AI芯片的先进散热解决方案,旨在解决先进制程芯片因集成度提升导致的功耗和发热密度激增问题。3DVC通过立体化设计,在芯片封装内部直接集成多层微流体通道,利用相变传热原理快速导出热量。

相比传统散热模组中热管与VC均温板的分离式设计,3D-VC散热器通过将热管延伸至VC均热板本体中,实现了三维立体的热传导路径。这使得3D-VC散热器在应对高功耗设备热量时能够接触更多的发热源,提供更多的散热路径,从而显著提升散热效果。

除了3DVC技术外,液冷也被认为是高功率下唯一可行的解决方案。液冷的散热效率远高于空气,水的效率约为空气的3600倍。当芯片面积每平方厘米的散热量超过约50瓦时,通常需要采用液冷。直接芯片冷却技术通过液体与芯片散热器的冷板通道直接接触来传递热量,实现了高效散热。

IBM采用了嵌入式微通道相变冷却技术,将介电液直接泵入芯片堆叠的微观间隙中,通过介电液从液相沸腾到气相来带走芯片的热量。测试结果表明,该技术可将芯片结温降低25℃。

英伟达在AI硬件领域也取得了显著进展。其发布的Blackwell芯片标志着AI硬件迈入了一个新纪元,为AI公司提供了前所未有的计算支持。基于Blackwell的AI算力以DGX GB200完整服务器形态提供给用户,结合了36颗NVIDIA Grace CPU和72块Blackwell GPU。为了支持GB200超级芯片的应用,英伟达推出了全新的计算集群DGX GB200 SuperPod,采用了新型高效液冷机架规模架构,能够在FP4精度下提供惊人的算力和内存容量。

DGX GB200 SuperPod通过第五代NVLink连接多个计算节点,实现了高速的数据传输和共享。例如,GB200 NVL72包含18个1U服务器,提供的FP8性能为720 petaflops,FP4计算性能为1440 petaflops,可处理多达27万亿个AI LLM参数模型。为了应对功耗问题,NVIDIA采用了液冷MGX封装和液冷机架级解决方案。

随着AI技术的不断发展,对AI芯片功耗和散热问题的解决方案也将持续创新和完善。台积电、IBM和英伟达等企业正在通过先进的技术手段,为AI芯片的散热问题提供有效的解决方案,推动AI技术的广泛应用和发展。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version