前段时间谷歌公司第一次允许媒体记者进入其位于美国和欧洲地区的数据中心进行访问与拍照,并公布了一批其数据中心的照片。通过照片,人们可以看到谷歌数据中心里面整齐地摆放着成千上万台服务器和错综复杂而又色彩缤纷的线缆以及冷却管道。我们在惊叹于其数据中心精彩的时候,也清醒认识到谷歌敢公开这些图片,就说明他有下一代技术了,未来很可能会进一步大幅改变其现有的计算系统架构。谷歌也曾威胁过说“他们的同事看了未来的架构,都很后悔现在的系统”,这说明谷歌的新一代数据中心架构会有更大更好的改变。针对这一猜测,笔者这里通过其专利的水冷服务器技术,权当盲人摸象,做最粗浅分析和最大胆猜测,和大家分享其尚未公开但有可能已在采用的数据中心技术。
图1 水冷服务器示意
水冷服务器其实也不是个全新的概念,比如图 1 是 IBM 联合瑞士苏黎世联邦理工学院共同研发了一种名叫 Aquasar 的水冷超级计算机,它可以降低 40%以上的能源消耗,减少85%的碳排放,同时将收集来的热能用于建筑上的需求例如地热。从这个案例我们可以看到采用水冷服务器的主要好处是就近带走热量可以有很高的节能效果,同时大大提高功率密度来缩小服务器的尺寸,减少风扇噪音,以及容易实现热能回收等等好处。基于这些好处,谷歌早在 2006 年之前就开始研究此技术,并于 2009 年得到其水冷服务器的专利。谷歌水冷服务器专利的主要技术特点是服务器主板两两成对安装在散热片的两个外侧,由散热片内流过温度较低的冷冻水来带走热量。其中高发热的元件,比如 CPU 和南北桥芯片组等靠近散热片内的冷冻水来安装,从而发出的热量被散热片内的冷冻水就近带走;而一些发热量不高的器件,比如内存和硬盘等则直接安装在稍远离三明治散热片中心的位置,部分案例中还有服务器风扇或电源风扇安装在某侧的服务器主板上,用于将内存和硬盘等的热量带走。
如图 2 是谷歌水冷服务器的侧视图,其中中间的三明治结构部分为水冷散热片 114,散热片的上下表面分别安装了两个服务器主板 112a 和 112b 以及 CPU、内存等发热元件。由铝锭加工压叠压而成的散热片 114 的内部有多个如 122 这样的冷冻水通孔,用于带走散热片吸收的服务器热量。散热片 114 的表面则根据服务器器件的发热程度还专门刻蚀出不同深浅的平台用于安装发热量不同的器件,比如标识为 116 的 CPU 和标识为 118 的芯片组等高发热量器件置于靠近冷冻水供水通道的平台,而标识为 120 的内存、标识为 124 网络和标识为
130 的低发热量器件则可置于稍远离冷冻水通道的平台,部分设计中标识为 126 的服务器风扇等还仍然会用于给服务器表面的器件散热,下面会更为详细介绍。
图2 谷歌水冷服务器侧视图
采用这种方式来散热有很多好处,比如发热量大的器件可以很高效得就近在本地很快被散热片冷却,而不像传统服务器发出的热量散发到机房级,需要通过机房级大风扇、冷水机组、大功率水泵等较高能耗的传统制冷方式来实现,还不用额外冷却机房级大空间环境内的空气等。由于采用了就近散热方式,冷冻水就可以不再采用传统的 7/12 度供水,而供水温度可以提升到 21 摄氏度以上,基本就不再需要冷水机组了,大大节能还可节省设备投资。同样服务器释放出来的发热量大大减少,气流循环的风扇 126 也仅仅可以以较低的速度运转,大大节省服务器风扇的能耗。
图 3 是谷歌水冷服务器的俯视图,主板 201 上有 6 个标识为 202 的 CPU 及标识为 206的芯片组,中间横向虚线部分为多根内存阵列,以及冷通道侧的网络控制器 208 和网络 RJ45接口 214 等。服务器的进风从右侧进入,流经内存及周边器件,然后被标识为 204 的服务器电源吸入,服务器电源的风扇 203 既作了电源的散热风扇,同时还兼做了服务器的气流循环风扇,进入服务器的风还可以被导风板 205 导入到风扇内,防止冷气流短路直通。
图3 谷歌水冷服务器的俯视图
图 4(a)是服务器散热片 114 的内部结构图,包括 302 和 304 这样的冷冻水通孔,内部流经的冷媒除了普通冷冻水外,还可以是氟化剂、食用油、乙二醇、液氮等等非导电物质。冷冻水从靠近大发热量 CPU 侧的 306 口进入,带走大部分热量后,再从小发热量的内存等附近 308 口流出。实际应用中,服务器机架内的水泵及阀门等提供冷冻水给到每套服务器,比如机柜内的冷冻水配水竖管(类似供电的配电 PDU)通过快速连接软管(类似于供电的电源线)以及每个服务器接入水阀门(类似于供电的空开)接到每套服务器的散热片内。冷冻水竖管上级还有配水单元及供水阀门(类似于供电的配电柜及上级空开)。图 4(b)是散热片的更详细侧视图,可以看到散热片 400 表面上有三个不同的散热平台层,用于不同发热量的器件。散热片 400 实际由三层铝锭 402、404 和 406 压叠而成,其中中间层的 404 可以为导热好的金属材料也可以采用导热不好的塑料材料等,甚至可以不用 404 层,直接由导热性好的 402 和 406 压叠而成。此外 412 作为冷冻水输入口,而 414 作为冷冻水流出孔。
图4(a) 散热片俯视图
图4(b) 散热片侧视图
图 5 是两个服务器机柜 502a 和 502b 的简化图,两层导轨的两套服务器之间的部分存在一定空隙用于机柜级气流流通,这个气流循环由每套服务器上安装的风扇来带走。由于服务器上的大部分热量都被散热片内的冷冻水带走,风扇只用于循环内存和硬盘等低发热器件的部分散热气流,因此风扇运行转速很低功耗也很少。每个散热器表面的两个服务器上器件被精心设计,以至于服务器密集堆叠部署时候,相邻两套服务器上的器件也不会互相干涉。比如上一套服务器的底部主板上的器件不会和下一套服务器的顶部主板上的器件发生干涉。同时每套服务器顶部主板上的风扇可以巧妙地同时用于本服务器顶部主板以及上面一套服务器的底部主板上的器件散热,即一套服务器的风扇可以同时用于上下两个服务器主板的散热。
此外,如前面所述,这里的服务器风扇可能会单独安装较大的散热风扇,但在谷歌的水冷服务器应用中,因为内存和硬盘等需要的散热功率不大,这些风扇很可能只是服务器电源内的散热风扇。通过这些电源风扇的运转以及导风板设计,将内存、硬盘等器件的热量带走,同时兼做服务器电源的散热,最后再送到热通道内降温。由于采用了双 U 高的大电源风扇,可以得到更大的风量,在降低了风扇转速和风扇能耗的同时,还可以大大降低机房的噪音,提供更好的现场人员工作环境,谷歌的机房也因为冷通道维护环境舒适和机房低噪声大空间等考虑和设计,也于前几年通过了 OHS 职业健康安全管理体系认证。
图5 谷歌水冷服务器机柜
如前面所述,除了被冷冻水带走的热量外,主板上内存硬盘等由电源风扇循环的热量,在热通道内被热通道顶部的制冷盘管重新制冷后,再被机房级的大风扇引导重新循环回服务器的冷通道侧以及现场人员操作通道内,最后被服务器吸入重新开始新一轮循环。通过适当控制机房级热通道内的服务器出风温度以及冷冻水供水温度,或者控制 IT 设备级的水冷服务器进水流量以及服务器上气流循环的风扇转速,使得整个系统高效运转在最佳节能状态。
比如控制服务器的出风温度,将散发出来的热量有效控制在较小的热通道内,得到较高的置顶空调盘管的 delta T 温差,温差越大盘管热交换效率就更高。且热气流不会和冷气流混合,就近被冷却盘管散热,风扇的功耗也更低。同时通过盘管顶部的机房级循环大风扇将冷却后的空气重新循环回机房的冷通道内,整个机房环境作为大的冷通道,不仅提供一个凉爽的现场运维人员工作环境,同时还兼作为整个大冷池用于众多服务器的风扇故障备份。
图 6 是机房某个剖面示意图,如前面介绍,整个机房环境是个大的冷通道,用于如下图515 的工作人员操作空间,兼做服务器的进风侧,实际图 6 右侧机柜的右边也是有类似冷通道用于服务器的进风,这里没画出来。两排机柜间的通道 516 作为热通道,用于汇集两侧所有服务器发出的热量(当然主要发热部分由服务器内部散热片内的冷冻水带走),热通道顶部安装着标识为 514 的置顶盘管,由风扇 512 和盘管 514 将热通道 516 内的热量制冷后再释放到整个机房大环境冷通道内。虽然下图的 512 风扇没有和 514 盘管放在一起,专门做了个热吊顶 510,实际在谷歌的很多案例中 512 风扇会直接安装在 514 盘管顶部,不再建设吊顶层来减少工程的复杂度。当然盘管 514 也可以不用直接安装在热通道的顶部,比如安装在机柜底部等,减少盘管漏水或者冷凝水等对服务器的运行风险,总之,可以灵活安装盘管和风扇的位置,满足不同的应用和风险需求。
图6 水冷服务器机房截面图
和谷歌的微模块技术一样,谷歌的水冷服务器机房沿用了地板下供水的方案,由于需要保持水冷服务器的水质,因此主要通过板式换热器 528 来隔离冷冻水内循环和冷却水外循环。513a 和 513b 是机房级主供回水管路(类似于供电主母排),而 515a 和 515b 为机柜级配水供回水管路(类似于机柜供电 PDU),524a 和 524b 为到每个服务器的供回水支管(类似于电源线),非常类似供电系统的供电路径设计。其中 524a 和 524b 为快接软管,考虑服务器故障检修和搬迁等经常性维护操作,用于和服务器散热片的快速插接。整个管路上还有很多的阀门用于防止漏水,比如竖管上的球阀 527 和支管自动截至阀等。而流到每个服务器的冷冻水流量则由流量计 525a和温度传感器 525b来控制,比如当监测到服务器温度偏高的时候,可以加大水流量或者调低冷冻水供水温度等。
传统的数据中心基本还停留在配电的较初级阶段,谷歌的数据中心已经规模在应用配水技术了。而阀门和连接技术要远复杂于线缆和配电开关,谷歌想必已经充分考虑这一点,并应该已经有效解决了漏水和阀门及管路连接可靠性等问题。此外,谷歌认为水的比热容远远大于空气,而且水和电一样,总体是可以控制在管路范围内,而气体体积太大且四处游散较难控制,风扇的功耗还高于水泵的功耗,因此采用水冷技术更优。图 7 就是谷歌采用水冷技术的典型案例,置顶空调盘管通过多个软管连通到地板下的主供水管获取冷冻水,然后将共享热通道内服务器排出的高温空气制冷,再循环到整个机房大冷通道环境,就近高效散热,非常节能,水冷服务器也是类似原理,但会更为节能。
图7 谷歌微模块 hot huts 内部热通道照片
总之,通过前面谷歌水冷服务器技术的介绍,可以看出谷歌强大的技术实力,以及对数据中心节能技术的不倦追求,同时还可以看到其大规模数据中心建设方法论的影子。即在保持整体长生命周期基础设施不太改变的基础上,通过短生命周期服务器技术等的不断优化升级来达到互联网提倡的快速迭代升级的思路。比如这个专利技术提到的水冷服务器机房级基础设施建设思路和笔者前面介绍的《谷歌数据中心微模块初探》内的相关技术几乎没太变化。比如仍采用 hot huts 热通道置顶空调技术,三联柜快速建设、冷热通道共享、地板下供水、服务器大风扇散热架构等等。长生命周期基础配套基本都可以沿用,只是将末端的配水和水冷服务器进行升级,不断优化快速迭代短生命周期的服务器和末端配水配电单元,以较小的投资来获得最大的收益。类似的思路我们还可以从其最早的集装箱数据中心(可参考拙作《谷歌集装箱数据中心浅析》)到设想的海上数据中心技术(同样可参考拙作《谷歌海上数据中心介绍》),以及沿用一直以来的水冷数据中心技术等看出此类端倪。并通过 hot huts 微模块技术这种单细胞无性繁殖模式替代传统数据中心高等级的哺乳动物繁殖模式,以工业化标准化单元灵活升级、按需配置,很好地解决了 IT 设备种类繁多且三年一更新和基础设施 10 到15 年基本不变的矛盾,非常值得业界学习。
来源:网络,侵删
本文标题:谷歌水冷服务器技术介绍
本文链接://www.hsggzxc.com/faq3/569.html [版权声明]除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。