E0多样化算力对服务器的散热挑战分析李建1阮迪2(1.北京三快云计算有限公司,北京100102;2.中国信息通信研究院云计算与大数据研究所,北京100191)摘要:多样化算力对于服务器散热设计提出严峻挑战,在对服务器散热问题进行解析之后,给出了通用算力和智算算力服务器散热受限的主要原因,并从工质是否相变的角度对常用的散热技术重新进行梳理与分类;对冷板式和浸没式液冷技术规模商用受限的核心限制因素进行分析与介绍;对常用的无源两相散热技术的问题和使用前景进行概述。最后,提出推动跨层级的合作会更有效的应对服务器散热挑战。关键词:多样算力;服务器;散热;液冷;无源两相散热;跨层级合作中图分类号:TN929.11文献标志码:A引用格式:李建,阮迪.多样化算力对服务器的散热挑战分析[J].信息通信技术与政策,2024,50(2):46-54.DOI:10.12267/j.issn.2096-5931.2024.02.0080引言随着云计算、大数据、人工智能(ArtificialIntelligence,AI)、自动驾驶等技术的快速发展,算力需求保持强劲的同时也出现明显分化。不同的业务需求促成了以通用算力、智算算力、边缘算力为代表的多样化算力载体,多样化算力也推动了中央处理器(CenterProcessingUnit,CPU)、图形处理器(GraphicsProcessingUnit,GPU)、神经网络处理器、现场可编程逻辑门阵列等算力平台的快速发展[1]。在当前的算力分布中,通用算力和智算算力占据主导地位,通用算力以CPU为主要算力平台,智算算力以GPU为主要算力平台。在生成式AI技术取得突破之前,以CPU和GPU为代表的算力芯片的性能发展趋势一直较为平稳,CPU约2.5年翻一倍,GPU约2.25年翻一倍[2];生成式AI技术突破以后,GPU的性能发展趋势明显加快。由摩尔定律可知,芯片性能的提升主要来源于晶体管数量的增加,参考芯片功耗的主要影响因素公式:P∝C×N×V2×f。其中,P为芯片功耗,C为负载电容,N为芯片的晶体管数量,V为晶体管工作电压,f为晶体管工作频率。晶体管数量与芯片的功耗成正比关系,虽然芯片的晶圆制程一直在迭代优化,但是对于芯片功耗控制的边际效应逐步显现,芯片功耗总体上仍呈明显上升趋势。根据相关芯片厂家的数据,以应用最为广泛的算力平台CPU和GPU为例,CPU的功耗将从现在的400W演进至600W以上,GPU的功耗将从700W演进至1000W以上,大功耗芯片散热成为服务器散热设计的主要挑战。1多样化算力芯片散热挑战点分析不同算力芯片的功耗差异较大,如CPU比GPU的功耗低很多,同样存在散热挑战的核心原因在于算力芯片所处的热边界条件不同。热边界条件是指芯片·64·...