DUG 依托 Solidigm 固态硬盘,将 AI 推理拓展至边缘

DUG Technology 首席信息官 Harry McHugh 分享了行业见解:企业如何依托 Solidigm 固态硬盘,在极端严苛的环境下将高性能计算 (HPC) 部署至边缘。以模块化集装箱式数据中心 DUG Nomad 10 为例,这款设备可在一个 10 英尺标准集装箱内部署超过 100 个 H200 GPU。搭配 DUG 浸没式冷却技术,即使部署在极为偏远的环境中,系统依然能够保持出色的能效表现和稳定散热能力。

然而,在如此有限的空间内集成如此强大的算力,对存储系统的小体积高容量能力提出了极高要求。Solidigm SSD 凭借单盘最高 122TB 的超大容量,为 DUG 的边缘 AI 推理和高性能计算工作负载提供所需的大规模存储能力。

凭借 Solidigm NVMe 硬盘的超大容量与高性能优势,我们得以在极小空间内实现海量数据存储和强大性能,这正是边缘 AI 推理场景的核心诉求。
Harry McHugh DUG Technology 首席信息官


 

数据处理的需求正急剧增长。AI 不仅对数据摄取和存储提出更高要求,也同步推动了算力需求激增。这意味着,我们比以往任何时候都需要更强大的计算资源。而这种需求已不再局限于传统数据中心,如今正进一步延伸至边缘场景。

我叫 Harry McHugh,是 DUG Technology 的首席信息官。

DUG Technology 专注于高性能计算领域。公司最初深耕油气行业,现已逐步拓展业务版图,为全行业各领域提供高性能计算服务。

DUG 运营数据中心已有十余年,全部采用自研 DUG COOL 浸没式冷却技术。依托该技术,我们能够在极小空间内部署高密度算力。传统机房普遍采用风冷机架散热,而我们的方案截然不同:将整台服务器完全浸没在冷却液槽中运行。

这也就意味着,在相同占地空间内,我们能够实现更高密度的算力部署。相较于风冷散热,油液或液体的散热效率要高出许多。各行各业长期受数据引力问题困扰:海量数据集在跨区域迁移时,往往需要耗费大量时间。

传统情况下,这类数据传输通常依赖光纤网络完成。即便是速度最快的光纤网络,要传输 AI 与高性能计算应用所需的海量数据,仍需耗时数日、数周乃至数月。凭借十余年来在数据中心领域持续深耕、优化并实施浸没式冷却技术的经验,我们现已通过 DUG Nomad 集装箱式模块化数据中心,将高性能计算能力扩展至边缘场景。以 DUG Nomad 10 为例,其可在一个 10 英尺标准集装箱内部署超过 100 个 H200 GPU。

集装箱本身即为一体化数据中心,大幅简化了整体物流部署。该方案可部署在各类偏远环境,且经过加固与严苛测试,能够耐受极端恶劣的气候条件。完成现场部署后,借助 DUG 浸没式冷却技术,系统可在冷却液槽中实现高能效运行,并长期保持稳定热管理。

尽管这类数据中心具备极高的移动性与环境适应能力,但冷却液槽内部的部署空间仍然有限。过去,我们主要采用机械硬盘 (HDD) 和集群式存储系统。

传统方案在硬盘故障率、架构复杂度以及运维管理方面都面临诸多挑战。因此,我们将大部分存储系统迁移至 Solidigm NVMe 固态硬盘。凭借其超高容量与卓越性能,我们能够在紧凑空间内部署海量存储和强大性能,而这正是边缘 AI 推理场景所需要的关键能力。