液冷基础知识

数据中心组件液冷技术概述

Liquid-cooled SSD for data center and AI factory
Liquid-cooled SSD for data center and AI factory

AI 训练、推理、实时分析以及不断提升的硬件部署密度,正在重新定义数据中心的常规功耗范围。过去功率通常在 5 千瓦至 15 千瓦区间、运行状态平稳的机架,如今正朝着 30 千瓦、60 千瓦甚至更高功率的密度发展。随着功率密度持续攀升,以往针对气流、风机墙、热通道与高架地板的传统设计逻辑逐渐失效。当功率密度达到一定水平后,风冷散热不仅难以满足需求,还会暴露出能效低下、占用空间大、运行稳定性差等问题。

这也是液冷技术从小众方案,逐渐演变为数据中心核心基础设施议题的重要原因。数据中心液冷并非单一产品或架构,而是一整套利用液体高热容特性进行热量传递的冷却技术,使数据中心能够在无需依赖大规模强制送风的情况下,实现高密度散热。

什么是液冷?

液冷是一种散热方式:通过冷却液在发热组件内部或周边循环带走热量,再将热量输送至其他位置(通常借助热交换器)进行更高效的散热。在数据中心场景中,液冷的核心是在热量产生源附近直接取热——无论是在机架内部、服务器内部,还是在芯片层面——从而减少机房对大规模冷风输送散热的依赖。

液冷的核心优势源于物理特性。与空气相比,同等体积下,液体的吸热能力约为空气的 3200 倍1。这意味着,在传输相同热量时,液冷系统可以实现:

  • 冷却介质流量更低
  • 机房环境温差更小
  • 风扇能耗更低
  • 更少依赖超大规模的气流管理

实际应用中,数据中心液冷普遍遵循如下散热链路:

  1. 在芯片、服务器或机架层面收集热量
  2. 通过冷却液回路传输热量
  3. 根据系统架构,将热量释放至厂区水循环、干冷器、冷却塔或冷水机组

由于热量收集方式多样,液冷技术呈现出多种架构形式:既有后门热交换器这类渐进式改造方案,也有浸没式冷却这类更具变革性的液冷技术。数据中心既可以选择逐步部署液冷方案,也可以从建设初期开始打造完全适配液冷技术的设施。

为什么采用液冷技术?

数据中心选择液冷技术,通常是基于性能提升、成本优化和风险管控的综合考量,尤其在 AI 与高性能计算 (HPC) 规模持续扩展的背景下,其优势更加明显。

支持更高机架密度

许多运营商反馈,一旦超过特定的系统阈值,空气冷却的实用性会显著降低。行业内普遍认为,仅依靠空气冷却时,机架功率密度一旦超过约 20 千瓦/机柜后,散热难度便会显著上升;而 AI 机架的功率密度往往远高于这一水平。2

液冷有助于降低用于“输送空气”的能耗

风扇和气流基础设施本身也会带来额外的能耗与成本。即使不考虑制冷机组的能耗,空气冷却设计通常也需要消耗大量电力,将空气输送至结构日益紧凑的服务器内部。根据系统架构的不同,液冷技术可降低对风扇的依赖,并支持数据中心在更高的温度设定点下运行。3

提高热稳定性

当组件温度过高时,可能会出现性能降频、错误增加或加速模式受限等问题。在数据中心环境中,液冷技术可实现更稳定的入口温度和组件温度,从而帮助系统保持可预测的性能表现。

拓展了设计选项:更高密度的机架、更小的占地面积、突破机房限制

如果您在空间受限的城市区域建设数据中心,或需要对老旧建筑进行改造,液冷服务器可在无需彻底重建整个暖通空调 (HVAC) 系统的情况下,为实现现代化计算密度提供可行途径。4

什么是数据中心液冷?

数据中心液冷指以液体作为主要热量输送介质的散热方式,而非单纯依靠空气完成散热。

在实际应用中,数据中心液冷主要分为三类部署形态:

  • 机房级液冷集成
    数据中心以液冷回路系统(包括冷冻水、冷凝水及温水回路)为核心散热架构,通常搭配热交换器,为液冷机柜提供冷却支持。
  • 机架级液冷
    液冷服务器机架可配备行间冷却设备、后门热交换器,或是芯片直冷管路歧管,将服务器接入冷却分配单元 (CDU)。
  • 服务器/组件级液冷
    服务器针对核心发热组件(如 GPU/CPU 的冷板)设计为直接液冷接触,并越来越多地在专用架构中采用定制化方案实现 SSD 液冷

随着 AI 增长加速,可持续性限制正日益影响数据中心的设计决策。水资源可用性与冷却方式间的权衡在公开报告中愈发凸显,运营商在扩容的同时,正积极探索闭环液冷及低耗水技术方案。水资源利用效率 (WUE) 这一新指标现已纳入监测范围 5

数据中心液冷技术类型

后门热交换器 (RDHx)

后门热交换器以液冷散热器替代机架后门,服务器排出的热空气流经该装置后被冷却,再返回机房环境。

最适用的场景

  • 过渡性部署场景:无需重新设计服务器,即可实现高效热收集
  • 同时部署风冷机架与液冷辅助机架的混合环境

关键注意事项

  • 服务器内部仍需空气流动,因此风扇能耗问题依旧存在
  • 需配套机架级管路与控制系统,保障安全稳定运行

芯片直冷(冷板)冷却

芯片直冷却常被视为数据中心液冷的“典型场景”:冷却液通过安装在高热组件(如 GPU、CPU、SSD)上的冷板直接带走热量。

在 AI 数据中心液冷场景中,芯片直冷尤为重要,由于 GPU 已成为主要热源,机架功率密度正迅速突破传统设计范围,部分系统甚至接近 25 万台 GPU6

核心优势

  • 源头高效热收集
  • 支持更高密度,同时可能降低机房整体气流需求

运维考量

  • 机架内部管路设计复杂度高
  • 泄漏检测、快速断开接口可靠性、维护流程

浸没式冷却(单相与双相)

浸没式冷却将服务器或组件完全浸入绝缘冷却液中。热量直接传递至冷却液,再通过热交换器进行散热。

选择浸没式冷却的理由

  • 极高的散热能力
  • 可能简化气流设计,甚至减少风扇使用

选择顾虑

  • 运维模式彻底改变,以及处理浸没式硬件的难度
  • 厂商锁定风险与运维学习曲线
  • 兼容性和材料方面的考量

随着液冷技术逐步成为主流,美国采暖、制冷与空调工程师学会 (ASHRAE) 及行业指南持续更新,强调在功率密度提升的背景下,需重点关注可靠性、可运维性及风险管控7

行间与近端耦合液冷

行间冷却将液冷设备就近布置在机架旁,缩短空气输送距离,进而提升温控调节能力。该方案常应用于传统数据中心内的高密度区域。

适用场景

  • 混合部署
  • 针对性高密度机柜(预制模块化数据中心单元,集成供电、制冷与硬件机架,支持快速部署)

机房温水回路与冷却分配单元

现代设计普遍采用冷却分配单元 (CDU),将机房管路回路与 IT 设备侧回路相互隔离。此举可强化调控能力、保障水质洁净度并优化压力管控,同时大幅提升机房改造的可行性。

液冷 SSD:工作原理是什么?

液冷 SSD 并非简单地在传统 SSD 上加装“更高效的散热片”。它是一种专门设计的企业级 SSD,通过液冷接口实现高效散热,同时仍保持企业级存储所需的关键特性——例如热插拔服务能力、标准化适配性及大规模部署下的可维护性。

Solidigm 与英伟达合作,共同攻克液冷 SSD 的技术难题,包括热插拔兼容性与单侧冷却问题。Solidigm 全液冷 SSD 解决方案采用单块冷板实现 SSD 双面散热,并支持热插拔,可节省空间且便于维护。点击此处,了解该行业首创技术的更多详情。

液冷与风冷对比

风冷与液冷均通过不同方式为 IT 设备散热,但二者在原理上存在本质差异。通过本对比,可根据设备密度、可靠性要求及运维需求快速选择合适的散热方案

散热原理对比

风冷

  • 通过风扇将冷空气吹入服务器,并将热量排出至机房环境
  • 依赖机房气流规划,例如冷热通道、密闭风道、机房空调/机房精密空调送风

液冷

  • 通过冷却液循环回路在热源附近吸收热量,并将其传递至热交换器
  • 依赖管路系统、CDU/歧管,以及可控冷却液流量,而非仅依赖机房气流

两种方案的最佳适用场景

风冷

  • 中等密度的通用企业级机架
  • 硬件频繁更新的混合部署环境
  • 针对传统气流组织与冷热通道封闭进行优化的机房

液冷

  • 高密度部署区域,例如 AI、HPC、高吞吐量计算/存储集群
  • 仅依赖气流已难以有效控制温度的机架
  • 为支持更高单机架功率密度下的规模化扩展而设计的机柜

机架密度提升的影响

风冷

  • 同等散热需求下,需要显著提升气流输送量
  • 风扇转速升高,导致功耗增加与噪音加剧
  • 布线杂乱、挡板缺失、气压分布不均等细微气流扰动均可能导致局部过热

液冷

  • 散热能力随冷却液流量与热交换器容量同步提升
  • 即便密度持续提升,组件温度仍可长期保持稳定
  • 机房气流不再是主要散热瓶颈,但非液冷组件仍需考虑气流影响

对存储与 SSD 的实际影响

风冷存储

  • SSD 依赖机箱气流与散热结构,以确保工作温度维持在规格范围内
  • 在高吞吐量 NVMe 环境中,持续高负载会导致驱动器温度升高;若气流余量不足,则可能增大降频发生的概率
  • 存储设备排出的热空气在循环回系统前,可能进一步增加系统内部深层组件的散热压力

SSD 液冷

  • 硬盘可集成至液冷散热架构中,尤其适用于高密度、以液冷为核心的服务器平台
  • 企业级方案注重保障数据中心工作流程的连续性,通过可预测的插拔操作、热插拔兼容性及可维护性设计,在提升散热效率的同时确保持续稳定的性能表现
  • 移除风扇可优化系统设计,同时仍能满足可维护性需求

面向数据中心团队的实用要点

风冷方案更适用于已将气流工程作为运营基础且机架密度仍处于传统可控范围内的数据中心环境。

液冷方案更适用于随着密度目标提升、AI 算力持续扩展或平台规划导致气流成为散热瓶颈的环境,同时团队已具备管理液冷基础设施(冷却回路、控制系统、运维流程)的能力,而不再仅依赖机房级空调冷却系统。

什么是混合冷却?

混合冷却是在同一数据中心、同一机架区域,甚至同一机架内结合风冷与液冷技术,根据实际需求灵活部署。

混合冷却系统通常适用于以下场景:

  • 仅部分区域为高密度环境(如企业级机房内的 AI 机柜)
  • 企业希望以渐进方式引入液冷技术
  • 传统设备与支持液冷的新一代平台需要长期共存

常见混合冷却模式

  • 对 GPU/CPU/SSD 采用芯片直冷,其余组件仍通过风冷散热
  • 部分机架部署 RDHx,其他区域继续采用传统风冷
  • 在独立机房内部署液冷 AI 集群,而通用计算区域仍维持风冷

混合冷却架构可以作为理想的“过渡方案”,但同时也需要明确运维边界:维护流程、备件管理、监控机制及机房协同等内容,都需要形成清晰文档,并根据实际运行情况持续优化。

数据中心采用液冷技术的优势有哪些?

更高密度支持能力

AI 服务器的快速普及,正成为推动液冷部署的重要驱动力。在 AI 基础设施讨论中,业界频繁提到机架密度正远超传统水平,部分先进 AI 系统甚至已达到极高密度部署水平。

潜在能效提升

根据架构设计,液冷技术可实现:

  • 降低服务器风扇功耗,甚至可移除风扇
  • 提升散热效率,并扩大可用热管理范围
  • 部分架构设计支持使用温度更高的冷却水循环(助力提升自然冷却能力)

更精准的温度控制,并减少局部过热问题

液冷技术可在组件级实现更精准的温度控制,避免因气流紊乱、线缆遮挡以及机架级气流不均导致的局部过热问题。

支持新型硬件设计

随着平台演进,集成液冷 SSD 选项有助于构建更加统一的系统级热管理方案,尤其适用于能够兼顾可维护性的场景。

数据中心采用液冷技术的挑战有哪些?

初期复杂度高且资本支出显著增加

即使长期能效优势明显,液冷方案仍需投入以下资源:

  • 管路基础设施
  • CDU 和热交换器
  • 监控系统、传感器及控制装置
  • 全新调试流程
  • 了解液冷与风冷的重量差异及影响评估

运维人员学习曲线

设施团队、IT 团队及厂商需协同制定以下标准化流程:

  • 泄漏检测与应急响应

  • 快拆接头操作规范

  • 预防性维护

  • 冷却液质量管理

  • 系统组件选型协同

泄漏风险认知

尽管现代设计已大幅降低泄漏发生的概率及其潜在影响,但企业仍需将泄漏场景视为首要故障模式,并制定相应的应急预案。

结论

液冷技术正成为现代数据中心的核心能力,尤其在 AI 推动机架密度、热流密度及基础设施负载持续攀升的背景下。但核心并非“液冷取代风冷”,而在于液冷正在拓展数据中心的可能性:支持更高密度部署、实现更稳定的性能表现,并催生传统风冷难以实现或效率低下的新型平台设计。

随着计算资源在 AI 工厂架构中的重要性不断提升,存储系统也正逐步迈向液冷化。Solidigm™ 推出的创新单侧液冷 SSD 方案表明, SSD 液冷技术已不再只是实验性技术,而正逐步成为下一代高密度 AI 就绪型基础设施的重要组成部分。

常见问题解答

当机架密度和热量输出超出风冷系统高效、可靠散热的能力范围时,数据中心需采用液冷技术。多数运营商发现,单机架功耗超过约 20 千瓦后,纯风冷设计将愈发难以满足散热需求;而 AI 机架的功率密度往往远高于这一水平。

芯片直冷技术通过冷板直接吸收特定组件(如 GPU、CPU 及 SSD)的热量,而浸没式冷却则是将服务器或组件完全浸入绝缘冷却液中。浸没式冷却可高效移除大量热量,但通常需对运营流程进行更大规模改造。

并非如此。尽管 AI 数据中心是当前液冷技术的主要应用场景,但当热量密度和空间占用成为限制因素时,高密度数据库、分析集群及高性能计算 (HPC) 环境同样能从液冷方案中获益。

液冷服务器机架是一种专为液冷基础设施设计的机架,通过与后门热交换器、行间冷却设备或连接至冷量分配单元 (CDU) 的歧管等组件协同工作,从而通过液体而非单纯依赖空气来完成高效散热。

液冷 SSD 通过专门设计的液冷接口(通常为冷板)高效传导热量,同时满足数据中心对设备适配性(如标准化安装尺寸)和可维护性的要求。例如,Solidigm 的液冷 SSD 方案在实现高效液冷散热的同时,仍保留热插拔功能。

在高性能计算场景中,NVMe SSD 产生的热量不可忽视——尤其在液冷服务器内部风道受限的情况下。SSD 液冷技术可维持性能稳定,并支持更高密度的平台架构设计。

混合冷却指在同一数据中心环境中同时采用风冷与液冷技术。例如,AI 机架中的 GPU/CPU 采用液冷,而机房其余设备仍使用风冷。对于预算有限的运营场景,混合冷却系统通常是更务实的实施方案。

数据中心的用水量取决于冷却系统设计。部分冷却方案(尤其是蒸发式冷却)耗水量较高,而闭环液冷或节水型设计则可显著减少用水。随着数据中心用水问题备受关注,团队应在设计或改造初期统筹考虑节水与节能。

主要运营风险包括泄漏管理、维护流程规范、冷却液质量及厂商技术差异。有效应对措施需依赖战略规划、监控、书面流程和人员培训,而非仅依赖硬件选型。

可考虑采用包含芯片级直冷、机架级液冷或行间冷却的混合散热架构。需明确量化成功指标,包括功率密度提升、热稳定性优化、风扇能耗降低及维护效率影响。待试点验证运营可行性后,再逐步扩大规模。