APP下载

多样化算力对服务器的散热挑战分析

2024-03-13李建阮迪

信息通信技术与政策 2024年2期
关键词:液冷算力板式

李建 阮迪

(1. 北京三快云计算有限公司,北京 100102;2. 中国信息通信研究院云计算与大数据研究所,北京 100191)

0 引言

随着云计算、大数据、人工智能(Artificial Intelligence,AI)、自动驾驶等技术的快速发展,算力需求保持强劲的同时也出现明显分化。不同的业务需求促成了以通用算力、智算算力、边缘算力为代表的多样化算力载体,多样化算力也推动了中央处理器(Center Processing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)、神经网络处理器、现场可编程逻辑门阵列等算力平台的快速发展[1]。在当前的算力分布中,通用算力和智算算力占据主导地位,通用算力以CPU为主要算力平台,智算算力以GPU为主要算力平台。在生成式AI技术取得突破之前,以CPU和GPU为代表的算力芯片的性能发展趋势一直较为平稳,CPU约2.5年翻一倍,GPU约2.25年翻一倍[2];生成式AI技术突破以后,GPU的性能发展趋势明显加快。

由摩尔定律可知,芯片性能的提升主要来源于晶体管数量的增加,参考芯片功耗的主要影响因素公式:P∝C×N×V2×f。其中,P为芯片功耗,C为负载电容,N为芯片的晶体管数量,V为晶体管工作电压,f为晶体管工作频率。晶体管数量与芯片的功耗成正比关系,虽然芯片的晶圆制程一直在迭代优化,但是对于芯片功耗控制的边际效应逐步显现,芯片功耗总体上仍呈明显上升趋势。根据相关芯片厂家的数据,以应用最为广泛的算力平台CPU和GPU为例,CPU的功耗将从现在的400 W演进至600 W以上,GPU的功耗将从700 W演进至1 000 W以上,大功耗芯片散热成为服务器散热设计的主要挑战。

1 多样化算力芯片散热挑战点分析

不同算力芯片的功耗差异较大,如CPU比GPU的功耗低很多,同样存在散热挑战的核心原因在于算力芯片所处的热边界条件不同。热边界条件是指芯片所在的散热相关的约束条件,如芯片本身的尺寸、封装形式、功耗分布、温度规格,服务器的硬件架构、空间尺寸、使用环境,散热器的选型、风量大小、冷板设计、液体流量和进出温差等。对芯片散热设计产生约束的信息均属于热边界条件。

以目前业界使用最广泛的2U通用服务器和AI服务器为例,分析CPU和GPU芯片散热边界的差异。如表1所示,CPU和GPU芯片的热边界条件存在较明显的差异,CPU的散热主要受限于空间和芯片封装设计,而GPU的散热则主要受限于多卡级联和芯片封装设计。

表1 CPU和GPU芯片热边界条件对比

2 服务器散热技术分析

2.1 散热机理解析

在服务器散热场景下,根据散热工质是否存在相变,散热技术可以分为单相散热技术和两相散热技术,两类散热技术的差异如表2所示。在实际使用中,一个服务器系统中可能出现多个技术混用的情况。例如,目前最常用的风冷换热本身属于单相传热技术,但是芯片使用的热管散热器中的热管部件属于两相散热技术;单相冷板技术也是在服务器风冷散热的基础上针对芯片单独使用的单相冷板散热技术,也属于多个散热技术混用的场景。

表2 单相和两相散热技术对比

2.2 不同散热技术性能对比

单相和两相散热技术各有优缺点,考虑CPU或GPU这类芯片呈现的高功耗和高热流密度特点,在实际使用中选择散热技术时,可以通过对比传热量和单点热流密度的能力来查看是否满足芯片的散热需求。以2U通用服务器CPU为例,主要散热技术的性能水平如图1所示。

图1 2U通用服务器架构不同散热技术散热能力对比示意图[3]

从图1可以得出以下结论。

(1)2U通用服务器架构下,单纯空气冷却的传热量和热流密度都是比较小的,所以实际使用中需要借助烧结型热管(两相散热技术)来提升散热器的热流密度和传热量。

(2)冷板式和浸没式为代表的泵驱液冷技术在传热量和热流密度方面相比空气冷却有大幅度的提升,这也是业界大力推广液冷技术的原因。

(3)单相冷板的热流密度要高于单相浸没式,但是传热量指标低于单相浸没式。

(4)环路热管性能与泵驱液冷技术性能相当,是一项非常有潜力的散热技术。

3 服务器液冷技术分析

由于单相冷板式和浸没式液冷技术的技术门槛相对较低,在汽车、电力等领域有着成熟和广泛的应用,因此,业界希望通过引入液冷技术来解决服务器芯片散热挑战,但看似成熟的液冷技术在服务器领域推广面临各种各样的问题,一直无法大规模部署商用,下面进行分析阐述。

3.1 冷板式液冷技术分析

服务器冷板式液冷技术方案的核心是充分利用冷板式液冷高热流密度的特点,针对性解决芯片散热问题,工质通过管路与安装在芯片上的冷板内部的翅片换热来带走热量。常见的服务器冷板式液冷系统分为闭环式和开环式,其中开环式冷板式液冷系统是当前的主流方案(见图2)。该方案液体工质会经过芯片和主板,所以工质泄露有可能导致短路;另外,相比传统的风冷散热器,液冷系统的复杂度变高,所以还会存在标准化和成本问题。总体而言,冷板式液冷技术的核心限制因素是可靠性和成本。

图2 服务器冷板式液冷散热系统(a)和冷板(b)示意图

可靠性问题的核心是服务器出现泄露时的故障半径和可维修时间的问题。漏液风险的衡量指标对应平均无故障工作时间(Mean Time Between Failure,MTBF),出现泄露以后维修时效的衡量指标对应平均维修时间(Mean Time To Repair,MTTR)。本文统计了目前我国A级数据中心的机架式服务器的可靠性指标水平(见表3),可以看出,实际使用中AI服务器的故障率约是通用计算服务器的3~5倍,AI服务器的主芯片数量约是通用计算服务器的5~9倍,风冷散热方案下的板卡维修相对简单,冷板式液冷方案下,大规模上量以后“维修”将成为一个必须考虑的问题。需要注意的是,不同的业务类型或者不同的调度水平对于可靠性指标的约束会存在比较大的差异,如何应对可靠性带来的问题需要根据实际情况综合考虑。

表3 服务器可靠性问题分析

冷板式液冷系统的成本分为显性成本和隐性成本,显性成本主要是指冷板式液冷散热方案的硬件成本,包含冷板、管路、快接头、分水器、冷却液分配单元、阀门等,这部分成本非常显性,也是业界最为关注的,显性成本通过标准化、国产化等措施有机会降低至可接受水平。隐性成本较为隐蔽,主要是为了应对服务器宕机和维修时间拉长对业务需求造成影响而产生的额外成本支出,主要包含两部分,一部分是服务器的备用机数量增加产生的采购成本,与集群规模、冗余设计有关;另一部分是服务器生命周期内离线和维修带来的折旧成本,与集群规模、MTBF、MTTR、在线率要求等有关。

总体上来看,冷板式液冷技术的规模商用问题,在产业链上的不同环节看到的限制因素存在巨大差异,服务器制造商认为服务器内部液冷散热方案的成本是主要限制原因,数据中心侧更关注兼容性,而用户侧对可靠性更为关注,如何协同解决冷板式液冷面临的限制是后续业界必须面对的难题。

3.2 浸没式液冷技术分析

如图3所示,浸没式液冷技术是将服务器散热所用的工质从空气更换为绝缘液体。与冷板式的风液混合散热系统相比,浸没式液冷系统最大的优势就是系统简单,可靠性问题并非重点,所以浸没式液冷技术受限的核心问题是兼容性和成本。

图3 单相浸没式液冷散热系统示意图[4]

兼容性问题不是指浸没式液冷技术对应的材料兼容性问题,而是指服务器系统架构兼容性问题。从整个产业链来看,对于服务器设备供应商而言,风冷和冷板式服务器因为架构兼容,可以实现平滑演进,冷板式液冷技术是服务器设备供应商的必然选择;而浸没式服务器要对服务器系统架构进行重构,很难做到和风冷散热架构的服务器实现归一化,从而带来服务器架构兼容性问题。

浸没式液冷技术的成本主要体现在两部分。第一部分是资本支出,服务器因兼容性问题需要架构重构会导致成本增加,同时为适应浸没式液冷架构,机房、机柜需要进行重构或重新设计,尤其是绝缘工质带来的成本,相比传统风冷数据中心会有明显的增长;第二部分是运营支出,包含机械吊臂、运维机器人、氟化液清洁、冷却工质的蒸发带来的补液成本、工质回收、环保问题等。

从现有浸没式液冷技术的使用案例来看,浸没式液冷主要用于高性能计算、超算等对投入产出比不敏感的使用场景,在明确要求性价比的使用场景下,成本将是浸没式液冷技术规模应用的最大挑战。

4 无源两相散热技术概述

无源两相散热技术有两个核心技术点:相变传热和无源泵驱技术。相变传热主要是流体在发生相变的时候带走的相变潜热,所以对应流体的总换热量为Q总换热量=Q潜热+Q显热,相比无相变过程,换热量更大,对流换热系数更高(如图4所示);无源泵驱技术是相对有源泵驱而言的,其最大的优点是不需要额外耗能,具有成本低、可靠性高、体积小等优点。在两相散热技术中,无源泵驱技术主要以重力、密度差、毛细力为主,其中毛细力是最常见的驱动技术。

图4 相变传热示意图

目前,无源两相传热技术主要包含热管、均温板、热虹吸、环路热管、脉动热管等,如表4所示。在目前服务器领域中,以热管和均温板应用最为广泛,热虹吸技术和环路热管有初步探索,但是没有规模落地使用,脉动热管因为技术特点,目前成熟度较低,属于N+2代次技术,短时间内落地的可能性较小,所以本文主要针对N代次和N+1代次的技术做介绍,对脉动热管技术不做详述。

表4 服务器可用无源两相散热技术汇总表[5]

4.1 热管技术

热管是当前服务器领域使用最广泛的两相传热技术,主要分为丝网型、烧结型、沟槽型和复合型[4]。目前服务器领域最常用的热管为铜水烧结型和“烧结+沟槽”组合型热管,这类热管技术成熟,优点很多,但缺点也非常显著,就是轴向传热能力有限,即使通过“烧结+沟槽”组合式进行改善,改进幅度也非常有限。

铜水烧结型热管的传热能力主要受到蒸汽极限和毛细芯极限的影响,根据厂家的数据统计,当热管管径达到8 mm以上(打扁厚度4 mm以上),毛细芯极限是影响热管传热能力的主要因素。烧结型热管的毛细力来源于金属粉末高温烧结形成的多孔介质,毛细力可以通过Young-Laplace方程计算,毛细芯阻力通过达西定律(Darcy’s law)计算,当前烧结所用的金属粉末的直径在毛细力和回液阻力的影响上是相互制约的,最终限制了烧结型热管的传热能力[6-7]。

对于烧结热管传热量有限的问题,理论上具备更高传热能力的沟槽热管技术也被重新审视,同时具备易加工、成本低的特点,是解决当下烧结型热管传热量不足的一个极具前景的技术路径。

4.2 均温板技术

均温板(Vapor Chambers, VC)的整体原理与热管基本相同。与热管不同的是,VC由一维热传导升级为二维平面传热,具备更高的热流密度,一般支持的热流密度高于60 W/cm2,特殊设计可以高达750 W/cm2的水平[2]。实际场景中均温板主要分为两类:第一类是以毛细力作为动力,以铜水烧结型和丝网型为主;第二类是以重力作为动力,以使用制冷剂的吹胀板为主。近年来,随着对散热器高度方向的散热能力需求的提升,散热器的相变传热技术从二维升级为三维,3D均温板(3D Vapor Chambers,3DVC)技术也逐步出现工程应用,常见的3DVC技术主要有3个技术路径,对应的技术方案如表5所示。

表5 3DVC散热技术方案对比

VC技术本身应用范围广泛,在CPU和GPU算力场景均可应用,但是在Intel和AMD的服务器芯片应用较少,主要受限于VC的最大工作温度和刚度。

技术难点一是VC的工作温度问题。烧结型VC的工作温度一般低于110 ℃[8],现有VC的设计是上下两个0.5 mm厚度的铜片,内部空腔配合支撑柱和铜粉烧结而成,温度超过110 ℃以后,蒸汽腔内的压力增大至高于大气压,导致VC出现变形。当前的优化技术主要是扩散焊接和一体式VC技术,可以将最大工作温度提升至140 ℃。

技术难点二是VC的刚度问题。Intel和AMD服务器芯片为了兼容多个型号,芯片与主板互联采用的是LGA封装,与常见的球栅阵列(Ball Grid Array,BGA)封装形式相比,LGA随着触点越来越多,对芯片的安装压力要求也越来越大。VC想要满足LGA封装未来的刚度要求会面临非常大的挑战,目前业界解决此问题的主要路径有两个。路径1是VC的外壳使用黄铜合金、不锈钢等更高刚度的材质;路径2是在VC外围增加结构件进行强度加强,比如增加不锈钢支撑件等。

4.3 热虹吸技术

热虹吸热管一般没有毛细芯,依靠重力实现循环,比较适合长距离传热场景,在无逆重力的使用场景中,有一定的技术优势。国内的互联网厂商曾经联合相关散热器厂家对此技术进行过研究,但是因实际使用效果收益有限,所以目前未实现规模化应用。热虹吸散热器实际使用中主要存在四个问题。问题一是散热器需要有一定的安装角度,冷凝器在上,热源在下;问题二是温度范围要求,存在温度极限,低温可能会出现冻结,高温可能会全部气化,和使用工质有关;问题三是需要大温差启动沸腾,容易出现气液混合导致启动不良,也是限制使用的核心问题;问题四是热量导出以后的集中式散热器的散热面积要比较大,对于服务器的空间和尺寸有要求。

对于热虹吸技术的问题,技术优化主要集中在沸腾启动的强化和驱动力的增强等方面。其中毛细力的辅助增加会有效改善散热特性,比如在蒸发段增加烧结芯,可以提高散热性能,同时降低充液量,减少因冻结而导致的结构损坏风险等。

4.4 环路热管技术

环路热管技术(Loop Heat Pipe,LHP)是目前来看最为均衡的无源两相散热技术,热性能对标液冷技术,兼顾烧结型热管和冷板式液冷技术的优点,同时又解决了烧结型热管和冷板式液冷技术的缺点。环路热管有效解决了烧结型热管存在的三个主要问题,即传热能力有限、传输距离有限和受重力影响大的问题。环路热管相比烧结型热管主要对毛细泵和管道进行了设计优化,毛细泵的优化措施是将毛细芯和管道分离,仅在蒸发器处有毛细芯,毛细芯的尺寸不受管道直径限制,毛细芯的泵压比热管至少高一个数量级;管道的优化措施是将汽液管道分离,蒸汽和液体各自在光滑管道中流动,有效降低沿程阻力损失[5]。

环路热管可以有效解决液冷技术面临的可靠性、兼容性和成本难题。以智算算力为例,采用如图5所示的技术方案,可以通过环路热管技术将多颗GPU芯片的功耗传递到专用的集中式水冷散热器或者集中式风冷散热器,芯片热量搬运路径由水管更换为环路热管,可以有效规避液体上板带来的泄露导电风险,同时通过集中式散热器的设计实现服务器可风可液的兼容性设计,解决液冷技术面临的可靠性、兼容性、成本等限制难题。

图5 GPU服务器环路热管散热方案示意图(侧视图)

环路热管的GPU散热解决方案的优点可以概括为“四高一低”。高性能:性能与冷板式液冷相当;高可靠性:液体不上单板,配合水冷器的无漏液加工工艺,基本杜绝漏液风险,液冷方案的可靠性与风冷方案相当;高通用性:无微通道的冷板设计,集中式专用水冷器对工质循环系统在导电率、过滤净化等方面的要求大幅度降低,显著提高通用性;高兼容性:达成AI服务器可风可液的兼容设计,对于机房的设计更加友好和弹性;低成本:系统散热成本低,据合作方的新方案估计,单系统散热模组成本约为冷板式液冷方案的50%。

环路热管技术不管在学术界还是工程界,目前仍属于散热领域的前沿技术,呈现“会做的少,用的更少”的特点。“会做的少”主要体现在:目前环路热管的工程化能力主要掌握在欧盟、美国、俄罗斯和中国手中,其他国家和地区主要以学术科研为主。“用的更少”主要体现在:当前环路热管技术的使用场景以宇航领域的航天器为主,手机产品上有少量使用,服务器产品上规模应用的案例非常少。近年来,随着我国对空间站、探月等空间技术的持续投入,我国的环路热管技术发展迅速,已达到国际先进水平。借助环路热管在航天领域的多年成熟应用,结合国内服务器市场规模和供应链优势,未来非常有希望在服务器领域实现规模商用,有效解决芯片散热难题。

5 结束语

多样化算力快速发展,算力芯片性能迭代速度加快,芯片功耗问题成为服务器散热的主要挑战,解决方案总体上可分为两个路线。路线一是以冷板式和浸没式为代表的液冷技术路线,是目前业界使用的重点,液冷技术具备性能高、技术门槛低的特点,但是在可靠性、兼容性和成本等方面的难题极大地限制了液冷技术的大规模商用;路线二是无源两相散热技术的深入研究,包含对热管、VC等现有两相散热技术的优化提升,以及对环路热管为代表的高性能两相散热技术的探索,特别是环路热管在解决高功耗芯片方面的独特技术优势,可以有效解决液冷技术面临的可靠性、兼容性和成本难题,具备非常良好的技术应用前景。总体上看,服务器散热难题仍然有足够的应对手段,两个技术路线各有利弊,可根据实际使用场景和需求灵活选用。多样算力下的服务器散热问题已经从单一层级问题演变为系统性问题,单独依靠服务器设备供应商已经很难解决,需要产业链上下游打破隔阂,开展更为广泛的跨层级合作和协同,共同探索出更为均衡的解决方案。

猜你喜欢

液冷算力板式
多方求解智能时代算力挑战
这个第二不一般
卫星通信在算力网络中的应用研究
厌氧胶在液冷板缺陷修复中的工艺技术
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
制动器液冷控制系统模糊控制策略
航天服的液冷服有什么用?
航天服的液冷服有什么用?
滑盖产品的三板式注塑模具设计
板式吊耳设计中的相关计算