AI 训练、推理、实时分析以及不断提升的硬件部署密度,正在重新定义数据中心的常规功耗范围。过去功率通常在 5 千瓦至 15 千瓦区间、运行状态平稳的机架,如今正朝着 30 千瓦、60 千瓦甚至更高功率的密度发展。随着功率密度持续攀升,以往针对气流、风机墙、热通道与高架地板的传统设计逻辑逐渐失效。当功率密度达到一定水平后,风冷散热不仅难以满足需求,还会暴露出能效低下、占用空间大、运行稳定性差等问题。
这也是液冷技术从小众方案,逐渐演变为数据中心核心基础设施议题的重要原因。数据中心液冷并非单一产品或架构,而是一整套利用液体高热容特性进行热量传递的冷却技术,使数据中心能够在无需依赖大规模强制送风的情况下,实现高密度散热。
液冷是一种散热方式:通过冷却液在发热组件内部或周边循环带走热量,再将热量输送至其他位置(通常借助热交换器)进行更高效的散热。在数据中心场景中,液冷的核心是在热量产生源附近直接取热——无论是在机架内部、服务器内部,还是在芯片层面——从而减少机房对大规模冷风输送散热的依赖。
液冷的核心优势源于物理特性。与空气相比,同等体积下,液体的吸热能力约为空气的 3200 倍1。这意味着,在传输相同热量时,液冷系统可以实现:
实际应用中,数据中心液冷普遍遵循如下散热链路:
由于热量收集方式多样,液冷技术呈现出多种架构形式:既有后门热交换器这类渐进式改造方案,也有浸没式冷却这类更具变革性的液冷技术。数据中心既可以选择逐步部署液冷方案,也可以从建设初期开始打造完全适配液冷技术的设施。
数据中心选择液冷技术,通常是基于性能提升、成本优化和风险管控的综合考量,尤其在 AI 与高性能计算 (HPC) 规模持续扩展的背景下,其优势更加明显。
许多运营商反馈,一旦超过特定的系统阈值,空气冷却的实用性会显著降低。行业内普遍认为,仅依靠空气冷却时,机架功率密度一旦超过约 20 千瓦/机柜后,散热难度便会显著上升;而 AI 机架的功率密度往往远高于这一水平。2。
风扇和气流基础设施本身也会带来额外的能耗与成本。即使不考虑制冷机组的能耗,空气冷却设计通常也需要消耗大量电力,将空气输送至结构日益紧凑的服务器内部。根据系统架构的不同,液冷技术可降低对风扇的依赖,并支持数据中心在更高的温度设定点下运行。3
当组件温度过高时,可能会出现性能降频、错误增加或加速模式受限等问题。在数据中心环境中,液冷技术可实现更稳定的入口温度和组件温度,从而帮助系统保持可预测的性能表现。
如果您在空间受限的城市区域建设数据中心,或需要对老旧建筑进行改造,液冷服务器可在无需彻底重建整个暖通空调 (HVAC) 系统的情况下,为实现现代化计算密度提供可行途径。4
数据中心液冷指以液体作为主要热量输送介质的散热方式,而非单纯依靠空气完成散热。
在实际应用中,数据中心液冷主要分为三类部署形态:
随着 AI 增长加速,可持续性限制正日益影响数据中心的设计决策。水资源可用性与冷却方式间的权衡在公开报告中愈发凸显,运营商在扩容的同时,正积极探索闭环液冷及低耗水技术方案。水资源利用效率 (WUE) 这一新指标现已纳入监测范围 5
后门热交换器以液冷散热器替代机架后门,服务器排出的热空气流经该装置后被冷却,再返回机房环境。
最适用的场景
关键注意事项
芯片直冷却常被视为数据中心液冷的“典型场景”:冷却液通过安装在高热组件(如 GPU、CPU、SSD)上的冷板直接带走热量。
在 AI 数据中心液冷场景中,芯片直冷尤为重要,由于 GPU 已成为主要热源,机架功率密度正迅速突破传统设计范围,部分系统甚至接近 25 万台 GPU6。
核心优势
运维考量
浸没式冷却将服务器或组件完全浸入绝缘冷却液中。热量直接传递至冷却液,再通过热交换器进行散热。
选择浸没式冷却的理由
选择顾虑
随着液冷技术逐步成为主流,美国采暖、制冷与空调工程师学会 (ASHRAE) 及行业指南持续更新,强调在功率密度提升的背景下,需重点关注可靠性、可运维性及风险管控7。
行间冷却将液冷设备就近布置在机架旁,缩短空气输送距离,进而提升温控调节能力。该方案常应用于传统数据中心内的高密度区域。
适用场景
现代设计普遍采用冷却分配单元 (CDU),将机房管路回路与 IT 设备侧回路相互隔离。此举可强化调控能力、保障水质洁净度并优化压力管控,同时大幅提升机房改造的可行性。
液冷 SSD 并非简单地在传统 SSD 上加装“更高效的散热片”。它是一种专门设计的企业级 SSD,通过液冷接口实现高效散热,同时仍保持企业级存储所需的关键特性——例如热插拔服务能力、标准化适配性及大规模部署下的可维护性。
Solidigm 与英伟达合作,共同攻克液冷 SSD 的技术难题,包括热插拔兼容性与单侧冷却问题。Solidigm 全液冷 SSD 解决方案采用单块冷板实现 SSD 双面散热,并支持热插拔,可节省空间且便于维护。点击此处,了解该行业首创技术的更多详情。
风冷与液冷均通过不同方式为 IT 设备散热,但二者在原理上存在本质差异。通过本对比,可根据设备密度、可靠性要求及运维需求快速选择合适的散热方案
风冷
液冷
风冷
液冷
风冷
液冷
风冷存储
SSD 液冷
风冷方案更适用于已将气流工程作为运营基础且机架密度仍处于传统可控范围内的数据中心环境。
液冷方案更适用于随着密度目标提升、AI 算力持续扩展或平台规划导致气流成为散热瓶颈的环境,同时团队已具备管理液冷基础设施(冷却回路、控制系统、运维流程)的能力,而不再仅依赖机房级空调冷却系统。
混合冷却是在同一数据中心、同一机架区域,甚至同一机架内结合风冷与液冷技术,根据实际需求灵活部署。
混合冷却系统通常适用于以下场景:
混合冷却架构可以作为理想的“过渡方案”,但同时也需要明确运维边界:维护流程、备件管理、监控机制及机房协同等内容,都需要形成清晰文档,并根据实际运行情况持续优化。
AI 服务器的快速普及,正成为推动液冷部署的重要驱动力。在 AI 基础设施讨论中,业界频繁提到机架密度正远超传统水平,部分先进 AI 系统甚至已达到极高密度部署水平。
根据架构设计,液冷技术可实现:
液冷技术可在组件级实现更精准的温度控制,避免因气流紊乱、线缆遮挡以及机架级气流不均导致的局部过热问题。
随着平台演进,集成液冷 SSD 选项有助于构建更加统一的系统级热管理方案,尤其适用于能够兼顾可维护性的场景。
即使长期能效优势明显,液冷方案仍需投入以下资源:
设施团队、IT 团队及厂商需协同制定以下标准化流程:
泄漏检测与应急响应
快拆接头操作规范
预防性维护
冷却液质量管理
系统组件选型协同
尽管现代设计已大幅降低泄漏发生的概率及其潜在影响,但企业仍需将泄漏场景视为首要故障模式,并制定相应的应急预案。
液冷技术正成为现代数据中心的核心能力,尤其在 AI 推动机架密度、热流密度及基础设施负载持续攀升的背景下。但核心并非“液冷取代风冷”,而在于液冷正在拓展数据中心的可能性:支持更高密度部署、实现更稳定的性能表现,并催生传统风冷难以实现或效率低下的新型平台设计。
随着计算资源在 AI 工厂架构中的重要性不断提升,存储系统也正逐步迈向液冷化。Solidigm™ 推出的创新单侧液冷 SSD 方案表明, SSD 液冷技术已不再只是实验性技术,而正逐步成为下一代高密度 AI 就绪型基础设施的重要组成部分。
当机架密度和热量输出超出风冷系统高效、可靠散热的能力范围时,数据中心需采用液冷技术。多数运营商发现,单机架功耗超过约 20 千瓦后,纯风冷设计将愈发难以满足散热需求;而 AI 机架的功率密度往往远高于这一水平。
芯片直冷技术通过冷板直接吸收特定组件(如 GPU、CPU 及 SSD)的热量,而浸没式冷却则是将服务器或组件完全浸入绝缘冷却液中。浸没式冷却可高效移除大量热量,但通常需对运营流程进行更大规模改造。
并非如此。尽管 AI 数据中心是当前液冷技术的主要应用场景,但当热量密度和空间占用成为限制因素时,高密度数据库、分析集群及高性能计算 (HPC) 环境同样能从液冷方案中获益。
液冷服务器机架是一种专为液冷基础设施设计的机架,通过与后门热交换器、行间冷却设备或连接至冷量分配单元 (CDU) 的歧管等组件协同工作,从而通过液体而非单纯依赖空气来完成高效散热。
液冷 SSD 通过专门设计的液冷接口(通常为冷板)高效传导热量,同时满足数据中心对设备适配性(如标准化安装尺寸)和可维护性的要求。例如,Solidigm 的液冷 SSD 方案在实现高效液冷散热的同时,仍保留热插拔功能。
在高性能计算场景中,NVMe SSD 产生的热量不可忽视——尤其在液冷服务器内部风道受限的情况下。SSD 液冷技术可维持性能稳定,并支持更高密度的平台架构设计。
混合冷却指在同一数据中心环境中同时采用风冷与液冷技术。例如,AI 机架中的 GPU/CPU 采用液冷,而机房其余设备仍使用风冷。对于预算有限的运营场景,混合冷却系统通常是更务实的实施方案。
数据中心的用水量取决于冷却系统设计。部分冷却方案(尤其是蒸发式冷却)耗水量较高,而闭环液冷或节水型设计则可显著减少用水。随着数据中心用水问题备受关注,团队应在设计或改造初期统筹考虑节水与节能。
主要运营风险包括泄漏管理、维护流程规范、冷却液质量及厂商技术差异。有效应对措施需依赖战略规划、监控、书面流程和人员培训,而非仅依赖硬件选型。
可考虑采用包含芯片级直冷、机架级液冷或行间冷却的混合散热架构。需明确量化成功指标,包括功率密度提升、热稳定性优化、风扇能耗降低及维护效率影响。待试点验证运营可行性后,再逐步扩大规模。
Cecily Whiteside 是 Solidigm 的搜索与内容专家。她为科技、生活方式以及健康养生类网站和出版物撰写文章,曾担任多家杂志的编辑主任,并且在美国国内外其他杂志担任过撰稿人和摄影师。
1) https://spectrum.ieee.org/data-center-liquid-cooling
2) https://www.feace.com/single-post/higher-rack-density-requires-liquid-cooled-servers
3) https://blog.equinix.com/blog/2025/10/01/top-3-myths-about-data-center-operating-temperatures/
4) 参考:https://www.solidigm.com/products/technology/edge-ai-seismic-data-processing-immersion-cooling.html
5) https://ambient-enterprises.com/news-insights/why-liquid-cooling-data-center-design-matters/