一、风冷:算力中心的“传统空调”,可靠但遇瓶颈

风冷,顾名思义,就是用空气作为散热介质,靠“吹风”带走服务器的热量,原理和我们家用空调、电风扇几乎一致,是目前应用最广泛、最成熟的散热技术,遍布各类中小型算力中心。

1. 核心原理:

风冷系统主要由两部分组成:服务器内部的散热风扇,以及机房整体的精密空调或列间空调。服务器运行时,CPU、GPU等核心部件会快速发热,内部风扇会加速转动,将冷空气吸入机箱,冷空气穿过散热片(吸收芯片热量)后,变成热空气被排出机箱;机房的精密空调则负责制造冷风、控制机房温度和湿度,将热空气冷却后循环利用,形成完整的散热闭环。

简单说,风冷就像给发烧的人吹电风扇,靠空气流动带走体表热量,技术逻辑简单,不需要复杂的管路设计。

2. 主流类型

风冷分为两种常见形式,适配不同场景:

  • 被动风冷:完全依靠自然对流和散热片散热,没有风扇,静音、无能耗,但散热效率极低,仅适用于发热量极小的低端服务器,现在已基本淘汰。
  • 主动风冷:就是我们现在最常见的形式,服务器内置风扇、机柜搭配散热风机,机房配备精密空调,可通过调节风扇转速、空调温度,适配不同的发热场景,散热效率比被动风冷高5-10倍,能应对单机柜功率密度≤10kW的传统算力需求
  1. 优劣势:成熟可靠,但扛不住高密度算力

风冷能沿用多年,核心优势在于“简单实用”:

  • 成本低:设备采购、安装和维护都很简单,初期投入少,运维人员上手快;
  • 可靠性高:没有复杂的管路和液体介质,不存在漏液风险,故障率极低;
  • 兼容性强:适配所有类型的服务器,改造难度小,存量算力中心升级成本低。

但随着AI大模型、云计算的爆发,算力密度大幅提升(部分智算中心单机柜功率突破50kW),风冷的短板也越来越明显,逐渐触及物理极限:

  • 散热效率低:空气的导热系数仅为0.026W/(m·K),导热能力极差,当机柜功率超过15kW时,多台空调叠加运行也难以降温,甚至会限制服务器性能,被动降频,导致计算效率下降30%;
  • 能耗极高:制冷系统(精密空调、风扇)的能耗占算力中心总能耗的30%-40%,是名副其实的“能耗黑洞”,导致PUE(能源利用效率)居高不下,南方地区夏季风冷PUE普遍突破1.6,难以满足国家新建数据中心PUE≤1.3的要求;
  • 噪音大:服务器风扇和机房空调持续运转,噪音可达80分贝,相当于站在马路边,对机房环境要求较高。

二、液冷

液体的导热效率是空气的20倍以上,比热容是空气的4倍。现在,液冷已成为高端智算中心、AI训练集群的“首选方案”,能实现PUE低至1.04,较风冷节能40%-50%。

1. 核心原理

液冷的核心的是用液体介质(水、矿物油、氟化液等)替代空气,直接或间接接触服务器发热部件,通过液体对流和相变吸热,将热量快速带走,再通过冷却系统将热水(或热液体)降温,循环利用。

与风冷相比,液冷的核心突破的是取消了高功耗的空调压缩机,改用低功率的闭式冷却塔和冷量分配单元(CDU),制冷系统能耗降低90%以上,从根源上实现节能。

  1. 主流类型:三种技术,适配不同算力场景

根据液体与服务器部件的接触方式,液冷主要分为三种,各自有明确的适配场景,目前冷板式和浸没式应用最广泛:

(1)冷板式液冷:给核心部件“敷冷毛巾”

这是目前最主流、最易落地的液冷技术,相当于给CPU、GPU等核心发热部件,贴了一块“可循环制冷的冷毛巾”。

image.png

原理是将铜或铝制的冷板,紧密贴合在芯片等发热部件表面,冷板内部有密闭流道,乙二醇溶液(防结冰、防腐蚀)在流道内循环,直接吸收芯片热量,再通过管路将热液体输送到冷却模块,降温后循环使用。

image.png

优势是改造无需改变服务器结构,支持“液冷+风冷”混合模式,适配10-30kW/机柜的场景,PUE可降至1.15-1.25,改造周期仅2个月。机柜密度可以提高20kW以上。

(2)浸没式液冷:

让服务器泡冷水澡,相当于把整个服务器,放进一个装满特殊冷却液的“浴缸”里,全程浸泡散热。

image.png

所用的冷却液(矿物油、氟化液)是绝缘、无毒、不导电的,不会对服务器部件造成损坏。服务器完全浸没在冷却液中,运行时产生的所有热量,都会被冷却液直接吸收,冷却液吸热后会自然对流,将热量传递到容器壁,再通过外部冷却系统降温,部分还能利用冷却液的相变(液体变气体),实现高效吸热。

这种方式的散热效率是冷板式的2-3倍,适配30-100kW/机柜的高密度智算场景,PUE可低至1.05-1.15,几乎没有风扇噪音(可低至45分贝),还能大幅节省机房空间。中兴通讯怀来项目部署48kW机柜,年节电超110万度,CO₂减排900吨;华为全液冷方案在50kW机柜上,年省50万度电,减排237.5吨。

(3)两相液冷:

这是更先进的液冷技术,基于航天级相变原理,利用液体气化时的潜热换热,散热效率是风冷的1000倍以上,能应对100kW以上的极端算力场景。

image.png

原理是让冷却液在发热部件表面沸腾,从液体变成气体,这个过程会吸收大量热量,气体上升后遇到冷却管,再凝结成液体,循环往复。塔能科技泵驱两相系统实现PUE≤1.12,某南方电信机房改造后PUE从1.8降至1.196,制冷负载系数(CLF)仅0.036。

  1. 优劣势:高效节能,但门槛较高

液冷的核心优势,完美解决了风冷的痛点,适配算力爆发的需求:

  • 散热效率极高:液体导热能力远超空气,能轻松应对高密度算力的发热需求,避免服务器因过热宕机;
  • 能耗极低:制冷系统能耗大幅降低,能实现PUE≤1.1,部分项目可达1.04,符合国家“双碳”和节能政策;
  • 噪音小、稳定性强:减少或取消风扇,机房噪音大幅降低;同时液体温度波动小,能将芯片温度控制在55℃以下,较风冷低15℃,芯片故障率下降30%,服务器寿命延长2-3年;
  • 可回收余热:液冷系统回收的高温冷却液,可用于机房供暖、热水供应等场景,实现能源二次利用,北方某智算中心通过余热回收,额外实现年节能15%。

但液冷也有明显的短板,限制了其快速普及:

  • 初期成本高:设备采购、管路铺设、机房改造的投入,比风冷高10%-30%,冷却液(尤其是氟化液)价格较高;
  • 运维难度大:需要专业的运维人员,负责监测管路漏液、冷却液更换和补充,漏液若未及时发现,可能损坏服务器;
  • 兼容性有限:浸没式液冷需要专用服务器,无法直接适配传统风冷服务器,改造存量机房的成本较高。

三、风冷vs液冷:

很多人会觉得,液冷崛起后,风冷就会被淘汰,但实际上,两者并不是“非此即彼”的关系,而是根据算力需求,形成互补共生的格局。简单来说:低算力、低成本需求,风冷依然是最优选择,比如中小型企业的算力节点、传统办公用的服务器机房,风冷的可靠性和低成本足以满足需求;高密度、高节能需求,液冷是必然趋势,比如AI大模型训练中心、大型云厂商的算力集群,液冷能破解散热和能耗困局,长期来看能节省大量电费,2年左右即可回收初期额外投入。

四、未来趋势:液冷普及加速,风冷持续优化

随着“东数西算”工程推进,以及国家对数据中心PUE的严苛要求(2025年新建数据中心PUE≤1.3),液冷技术的普及速度会越来越快。行业趋势显示,液冷在算力中心的占比,将从2025年的15%升至2030年的50%,标准化也会加速,未来会出台液冷系统设计、测试的统一规范。

同时,液冷技术也在不断升级:漏液检测技术越来越精准(可实现秒级响应),冷却液成本持续下降(规模化采购可降低40%),国产化替代加速,华为、塔能等企业已实现冷板、工质、控制算法全链条自主可控,打破国外技术垄断。

而风冷也不会被淘汰,而是会持续优化——比如优化风扇转速调节、改进散热片设计、采用间接蒸发冷却技术,提升散热效率、降低能耗,适配中低端算力需求,与液冷形成“高低搭配”,共同支撑算力时代的发展。

标签: none

添加新评论