关于边缘存储您需要了解的一切

使用搭载 Solidigm 固态硬盘的边缘解决方案的仓库机器人。
使用搭载 Solidigm 固态硬盘的边缘解决方案的仓库机器人。

边缘人工智能的存储需求

想象一下,一台半深度单插槽服务器安装在杂货店冰柜上方,温度为 40°C。它在小型 GPU 实时处理多模态提示时轻轻发出嗡嗡声。这就是现实场景中的边缘服务器:几百瓦的共享功率、鞋盒大小的占地面积以及几乎没有气流的散热。在这种情况下,决定了推理能否顺利进行的不是计算,而是存储。

这种边缘服务器的瓶颈具体表现为功率限制严格、内部空间狭窄、环境温度高和模型文件增长快速。来自 Antillion 的可穿戴服务器、正睿的家畜基因组学平台和 PEAK:AIO 的企业内部人工智能集群的现场测试结果表明,用最新的 Solidigm™ 硬盘驱动器取代旧式固态硬盘或硬盘层,可以减少占地面积、降低功耗并保持 GPU 的正常运行。无论是应用于诊所店面、工业堆场还是农村变电站,只要选择了正确的存储设备,棘手的边缘计算问题就能转化为可观的性能余量。

为什么边缘比核心更棘手

云大厅中的一个超大型机架的功率可达 10 kW 以上,位于成排的冷却器之下。相比之下,边缘节点可能被安装在扫帚柜或杆式安装机柜中,在这种情况下,功率、尺寸和温度的微小变化都会产生显著后果。许多专用边缘服务器的额定功率仅为 200 W 至 300 W,而这一上限必须涵盖 CPU、GPU、网络和存储。现在,核心机架的平均功率约为 12 kW,如支持人工智能集群,功率则要高得多,这与边缘设备所能期望的功率不属于一个数量级。

物理空间同样有限。一个短深度单路机箱可能只有两个 2.5 英寸驱动器托架和一对 E1.S 驱动器插槽,因此每个系统的容量直接限制了本地模型和数据集的大小。由于很少有备用插槽,以后再扩展插槽往往意味着需要整机更换,而不是简单的硬盘替换。因此,最好从一开始就具有正确的容量,才能有利于提高性能增长空间和投资回报率。

冷却也很苛刻。联想的 ThinkEdge SE450 等坚固耐用的边缘系统可在入口温度高达 45°C 时连续运行,远高于大多数数据中心冷通道的目标温度 30°C。在这样的温度下,任何功率为 10 W 及以上的硬盘都会使小型机箱不合规。为了保持店面、诊所和零售楼层的隔音效果,风扇只能慢速旋转,因此每个组件都必须自行实现有效散热。

带宽无法弥补差额。在云服务器从 PB 级存储结构流式传输数据的情况下,边缘盒却通常依赖于单个 1 GbE 路线或共享的 5G 链路。因此,模型、嵌入、视频缓冲区和日志与 GPU 的距离只能有几英寸,而不是几英里。维修服务很少进行,因此驱动器必须在无人看管的情况下经久耐用。 

Solidigm 固态硬盘为边缘存储解决方案提供耐用性、密度和吞吐量这三大支柱。

这些综合限制改写了存储的需求标准。边缘构建商需要的是可与云计算媲美的容量,但要塞进一两个 E1.S 硬盘插槽;需要的是可承受突发传感器流量的写入耐久性,但要功耗很低;还需要的是读取速度,即使机柜内的温度高达四十多度,GPU 也能不停地工作。

性能与容量:工作负载优先设计

某些边缘工作负载可用与否取决于性能。实时视频分析、实时基因组比对和快速检索增强生成需要每秒数 10 GB 的持续带宽读取和微秒级的延迟。其他应用,包括自动驾驶汽车数据采集或现场合规性记录等,则更看重容量,以便保留数周或数月的上下文信息。无论采用何种组合,设计人员都必须在同样狭小的功率包络线和狭窄的机箱内进行设计。

要达到高效,需要根据实际流量模式选择耐用性、吞吐量和密度,同时为 CPU、GPU 和网络预留足够的热余量。

平衡的边缘堆栈的解剖结构

大多数成功的设计都会对存储进行分层,使每一层都能发挥自身优势。

  • 写入突发缓存- 吸收不规则的输入流量,不会过早损耗
  • 工作层- 为加速器提供可预测的吞吐量和延迟
  • 容量层- 在闲置时消耗电力的同时存放上下文文件

由于每一层的尺寸都是根据实际工作负载确定的,因此,使用 Solidigm 固态硬盘的典型堆栈可安装在不到 8 个托架中,功耗低于 60 W,并能在低于 40 摄氏度的环境温度中运行。同样的模式可以接收诊所的实时 DICOM 图像,筛选商店的零售视频,或存档一年的变电站波形,而不会耗尽机柜。

经济性强化了设计。将十几个低容量硬盘换成三个 Solidigm 高容量 NVMe SSD 可将硬盘数量减少 75%,减少大约 150 W 的热量,并将存储计算降低约 25%。这些节省下来的瓦数和插槽可用于额外的 GPU、更快的网卡或更安静的风扇。

来自现场测试的真实经验教训

Antillion 急救响应人员

Antillion 制造了微型边缘计算机,现场作业人员可将其穿戴在背心上。早期版本依赖于 2.5 英寸 SATA 固态硬盘,容量和吞吐量受限。该公司将这些磁盘替换成了高性能 SSD D7 系列 驱动器系列中的 Solidigm E1.S NVMe SSD。这次替换使得高分辨率视频和传感器馈送的流式带宽提高了一倍多,在软件部署过程中将系统构建时间缩短了约 30%,而且在数百台设备交付使用后,现场硬盘故障率为零。Solidigm E1.S 硬盘的创新使 Pace A2 战术节点能够在不增加重量的情况下携带大型数据集,证明了坚固耐用的边缘设备不再需要以容量换尺寸。如需详细了解我们与 Antillion 的合作,请阅读这篇文章:Antillion 和 Solidigm:推动边缘计算创新

正睿科技牲畜基因组学

正睿科技在四川运行着一个动物-畜牧业分析平台,该平台可获取基因组序列、表型图像和环境遥感数据。现在,一台装有二十四个 Solidigm D5-P5336 大容量硬盘的两单元服务器可容纳约 700 TB 的容量,并可维持约 100 万随机 IOPS。从混合 HDD 和低容量固态硬盘存储设备到全大容量 Solidigm 固态硬盘配置,机架空间和存储功率减少了 79%,从而为现场训练疾病预测和育种价值模型的额外 GPU 腾出了预算和热余量。要了解更多关于我们与正睿科技合作的信息,请点击查看本文:《正睿科技和 Solidigm 固态硬盘》

PEAK:AIO 研究集群

PEAK:AIO 与戴尔公司合作建立了一个由两个单元组成的人工智能数据服务器,该服务器通过英伟达 ConnectX-7 适配器每秒传输 120 GB 的数据。该系统通过在全部 24 个 NVMe 托架中装入 Solidigm 61.44 TB 大容量固态硬盘来达到这一速度,在足够小到适合卫星实验室和地区诊所使用的机箱中提供 1.5 PB 的容量。在电力预算研究中,同样的方法显示,在 50 MW 的数据中心模型中,可节省 10 到 20 MW 的电力。这为运营商提供了额外空间,使其能够在不增加站点总能耗的情况下,将 GPU 容量增加约 50%。了解我们与 PEAK:AIO 合作的更多信息,请参阅本文:PEAK:AIO、MONAI 和 Solidigm:革新医疗 AI 存储。

综合来看,这些部署证实了这一模式。当存储密度上升、每 TB 功耗下降时,边缘服务器就会缩小,运营成本就会降低,加速器就会持续工作而不是等待数据。

将 Solidigm 产品组合与边缘需求相匹配

Solidigm D7-P5810 用于缓存层存储,Solidigm D7-PS-1010 用于性能层存储,Solidigm D5-P5336 用于容量层存储。

下表说明了三种硬盘选件如何与限电边缘服务器内的高速缓存、工作原理和容量作用相匹配。

特性 Solidigm™ D7-P5810 Solidigm™ D7-PS1010 Solidigm™ D5-P5336
产品类别 缓存层 性能层 容量层
边缘 AI 角色 写入突发缓存 热模型和索引存储 大上下文和保留性
接口 PCIe 4.0 x4 PCIe 5.0 x4 PCIe 4.0 x4
外形 U.2 15 毫米 E1.S 9.5 毫米,
E1.S 15 毫米,
E3.S 7.5 毫米,
U.2 15 毫米。
U.2 15 毫米,
E3.S 7.5 毫米,
E1.L 9.5 毫米
顺序读取 ≈ 6.4 GB/s ≈ 14.5 GB/s ≈ 7 GB/s
随机读取 ≈ 0.9 M IOPS ≈ 3.1 M IOPS ≈ 1 M IOPS
容量范围 0.8–1.6 TB 1.92–15.36 TB 7.68–122.88 TB
耐用性(DWPD,5 年) ≈ 50 1.0 ≈ 0.5
空闲功耗/活动功耗 5 W / < 10 W 5 W / 23 W(平均) 5 W / ≈ 25 W

一种实用布局是将几个高速缓存级固态硬盘驱动器配对起来,用于接收峰值数据,将一小群 Gen5 性能级固态硬盘驱动器配对起来,用于活跃数据集,将一两个大容量固态硬盘驱动器配对起来,用于上下文数据。将耐用性与写入压力、带宽与加速器需求、密度与保留需求相匹配,可将边缘限制转化为喘息空间。有了合适的 Solidigm 层级,云计算级人工智能就可以在店面、工厂车间或农村支线旁运行,而无需投入整个数据中心的预算。

结论:作为边缘推动因素的存储

边缘计算迫使人工智能进入曾经用于路由器和保险丝盒的空间。在狭小的空间里,闪存的选择决定了有多少数据能到达 GPU、机箱的冷却程度以及投资回报的快慢。实地部署显示出一种可重复的模式: 

  • 高速缓存层固态硬盘处理不规则写入
  • 适用于工作环境的第 5 代高性能固态硬盘
  • 大容量固态硬盘,可处理一切必须在本地处理的事务

Antillion 的战术钻机、正睿的家畜基因组学集群和 PEAK:AIO 的研究服务器都遵循了这一模式,并记录了更小的占地面积、更低的能耗和更稳定的加速器利用率。

需求只会攀升。模型不断扩展,多模式推理拓宽了访问模式,分析堆栈推动了更深的突发读取。因此,存储必须同时沿着三个方向发展:每个插槽更多 TB、更快直达 GPU 内存的数据通道以及能够适应不断变化的工作负载的更智能的分层。 

Solidigm 的创新和领先之路已经朝着这个方向发展,包括支持液冷冷板的 E1.S SSD、全速 PCIe Gen5 通道以及旨在减少近设备数据的固件。随着这些功能的成熟,更复杂的人工智能流程可以离开数据中心,在传感器所在的地方运行。


关于作者

Jeff Harthorn 是 Solidigm 公司的人工智能数据基础设施营销分析师。Jeff 在解决方案架构、产品规划和市场营销方面拥有丰富的实践经验。他负责制定企业人工智能信息,包括液冷式 E1.S 固态硬盘的竞争研究,为我们的客户和合作伙伴将极客级细节转化为清晰的商业价值。Jeff 拥有加州州立大学萨克拉门托分校计算机工程理学学士学位。