想象一下,一台半深度单插槽服务器安装在杂货店冰柜上方,温度为 40°C。它在小型 GPU 实时处理多模态提示时轻轻发出嗡嗡声。这就是现实场景中的边缘服务器:几百瓦的共享功率、鞋盒大小的占地面积以及几乎没有气流的散热。在这种情况下,决定了推理能否顺利进行的不是计算,而是存储。
这种边缘服务器的瓶颈具体表现为功率限制严格、内部空间狭窄、环境温度高和模型文件增长快速。来自 Antillion 的可穿戴服务器、正睿的家畜基因组学平台和 PEAK:AIO 的企业内部人工智能集群的现场测试结果表明,用最新的 Solidigm™ 硬盘驱动器取代旧式固态硬盘或硬盘层,可以减少占地面积、降低功耗并保持 GPU 的正常运行。无论是应用于诊所店面、工业堆场还是农村变电站,只要选择了正确的存储设备,棘手的边缘计算问题就能转化为可观的性能余量。
云大厅中的一个超大型机架的功率可达 10 kW 以上,位于成排的冷却器之下。相比之下,边缘节点可能被安装在扫帚柜或杆式安装机柜中,在这种情况下,功率、尺寸和温度的微小变化都会产生显著后果。许多专用边缘服务器的额定功率仅为 200 W 至 300 W,而这一上限必须涵盖 CPU、GPU、网络和存储。现在,核心机架的平均功率约为 12 kW,如支持人工智能集群,功率则要高得多,这与边缘设备所能期望的功率不属于一个数量级。
物理空间同样有限。一个短深度单路机箱可能只有两个 2.5 英寸驱动器托架和一对 E1.S 驱动器插槽,因此每个系统的容量直接限制了本地模型和数据集的大小。由于很少有备用插槽,以后再扩展插槽往往意味着需要整机更换,而不是简单的硬盘替换。因此,最好从一开始就具有正确的容量,才能有利于提高性能增长空间和投资回报率。
冷却也很苛刻。联想的 ThinkEdge SE450 等坚固耐用的边缘系统可在入口温度高达 45°C 时连续运行,远高于大多数数据中心冷通道的目标温度 30°C。在这样的温度下,任何功率为 10 W 及以上的硬盘都会使小型机箱不合规。为了保持店面、诊所和零售楼层的隔音效果,风扇只能慢速旋转,因此每个组件都必须自行实现有效散热。
带宽无法弥补差额。在云服务器从 PB 级存储结构流式传输数据的情况下,边缘盒却通常依赖于单个 1 GbE 路线或共享的 5G 链路。因此,模型、嵌入、视频缓冲区和日志与 GPU 的距离只能有几英寸,而不是几英里。维修服务很少进行,因此驱动器必须在无人看管的情况下经久耐用。
这些综合限制改写了存储的需求标准。边缘构建商需要的是可与云计算媲美的容量,但要塞进一两个 E1.S 硬盘插槽;需要的是可承受突发传感器流量的写入耐久性,但要功耗很低;还需要的是读取速度,即使机柜内的温度高达四十多度,GPU 也能不停地工作。
某些边缘工作负载可用与否取决于性能。实时视频分析、实时基因组比对和快速检索增强生成需要每秒数 10 GB 的持续带宽读取和微秒级的延迟。其他应用,包括自动驾驶汽车数据采集或现场合规性记录等,则更看重容量,以便保留数周或数月的上下文信息。无论采用何种组合,设计人员都必须在同样狭小的功率包络线和狭窄的机箱内进行设计。
要达到高效,需要根据实际流量模式选择耐用性、吞吐量和密度,同时为 CPU、GPU 和网络预留足够的热余量。
大多数成功的设计都会对存储进行分层,使每一层都能发挥自身优势。
由于每一层的尺寸都是根据实际工作负载确定的,因此,使用 Solidigm 固态硬盘的典型堆栈可安装在不到 8 个托架中,功耗低于 60 W,并能在低于 40 摄氏度的环境温度中运行。同样的模式可以接收诊所的实时 DICOM 图像,筛选商店的零售视频,或存档一年的变电站波形,而不会耗尽机柜。
经济性强化了设计。将十几个低容量硬盘换成三个 Solidigm 高容量 NVMe SSD 可将硬盘数量减少 75%,减少大约 150 W 的热量,并将存储计算降低约 25%。这些节省下来的瓦数和插槽可用于额外的 GPU、更快的网卡或更安静的风扇。
Antillion 制造了微型边缘计算机,现场作业人员可将其穿戴在背心上。早期版本依赖于 2.5 英寸 SATA 固态硬盘,容量和吞吐量受限。该公司将这些磁盘替换成了高性能 SSD D7 系列 驱动器系列中的 Solidigm E1.S NVMe SSD。这次替换使得高分辨率视频和传感器馈送的流式带宽提高了一倍多,在软件部署过程中将系统构建时间缩短了约 30%,而且在数百台设备交付使用后,现场硬盘故障率为零。Solidigm E1.S 硬盘的创新使 Pace A2 战术节点能够在不增加重量的情况下携带大型数据集,证明了坚固耐用的边缘设备不再需要以容量换尺寸。如需详细了解我们与 Antillion 的合作,请阅读这篇文章:Antillion 和 Solidigm:推动边缘计算创新。
正睿科技在四川运行着一个动物-畜牧业分析平台,该平台可获取基因组序列、表型图像和环境遥感数据。现在,一台装有二十四个 Solidigm D5-P5336 大容量硬盘的两单元服务器可容纳约 700 TB 的容量,并可维持约 100 万随机 IOPS。从混合 HDD 和低容量固态硬盘存储设备到全大容量 Solidigm 固态硬盘配置,机架空间和存储功率减少了 79%,从而为现场训练疾病预测和育种价值模型的额外 GPU 腾出了预算和热余量。要了解更多关于我们与正睿科技合作的信息,请点击查看本文:《正睿科技和 Solidigm 固态硬盘》。
PEAK:AIO 与戴尔公司合作建立了一个由两个单元组成的人工智能数据服务器,该服务器通过英伟达 ConnectX-7 适配器每秒传输 120 GB 的数据。该系统通过在全部 24 个 NVMe 托架中装入 Solidigm 61.44 TB 大容量固态硬盘来达到这一速度,在足够小到适合卫星实验室和地区诊所使用的机箱中提供 1.5 PB 的容量。在电力预算研究中,同样的方法显示,在 50 MW 的数据中心模型中,可节省 10 到 20 MW 的电力。这为运营商提供了额外空间,使其能够在不增加站点总能耗的情况下,将 GPU 容量增加约 50%。了解我们与 PEAK:AIO 合作的更多信息,请参阅本文:PEAK:AIO、MONAI 和 Solidigm:革新医疗 AI 存储。
综合来看,这些部署证实了这一模式。当存储密度上升、每 TB 功耗下降时,边缘服务器就会缩小,运营成本就会降低,加速器就会持续工作而不是等待数据。
下表说明了三种硬盘选件如何与限电边缘服务器内的高速缓存、工作原理和容量作用相匹配。
特性 | Solidigm™ D7-P5810 | Solidigm™ D7-PS1010 | Solidigm™ D5-P5336 |
产品类别 | 缓存层 | 性能层 | 容量层 |
边缘 AI 角色 | 写入突发缓存 | 热模型和索引存储 | 大上下文和保留性 |
接口 | PCIe 4.0 x4 | PCIe 5.0 x4 | PCIe 4.0 x4 |
外形 | U.2 15 毫米 | E1.S 9.5 毫米, E1.S 15 毫米, E3.S 7.5 毫米, U.2 15 毫米。 |
U.2 15 毫米, E3.S 7.5 毫米, E1.L 9.5 毫米 |
顺序读取 | ≈ 6.4 GB/s | ≈ 14.5 GB/s | ≈ 7 GB/s |
随机读取 | ≈ 0.9 M IOPS | ≈ 3.1 M IOPS | ≈ 1 M IOPS |
容量范围 | 0.8–1.6 TB | 1.92–15.36 TB | 7.68–122.88 TB |
耐用性(DWPD,5 年) | ≈ 50 | 1.0 | ≈ 0.5 |
空闲功耗/活动功耗 | 5 W / < 10 W | 5 W / 23 W(平均) | 5 W / ≈ 25 W |
一种实用布局是将几个高速缓存级固态硬盘驱动器配对起来,用于接收峰值数据,将一小群 Gen5 性能级固态硬盘驱动器配对起来,用于活跃数据集,将一两个大容量固态硬盘驱动器配对起来,用于上下文数据。将耐用性与写入压力、带宽与加速器需求、密度与保留需求相匹配,可将边缘限制转化为喘息空间。有了合适的 Solidigm 层级,云计算级人工智能就可以在店面、工厂车间或农村支线旁运行,而无需投入整个数据中心的预算。
边缘计算迫使人工智能进入曾经用于路由器和保险丝盒的空间。在狭小的空间里,闪存的选择决定了有多少数据能到达 GPU、机箱的冷却程度以及投资回报的快慢。实地部署显示出一种可重复的模式:
Antillion 的战术钻机、正睿的家畜基因组学集群和 PEAK:AIO 的研究服务器都遵循了这一模式,并记录了更小的占地面积、更低的能耗和更稳定的加速器利用率。
需求只会攀升。模型不断扩展,多模式推理拓宽了访问模式,分析堆栈推动了更深的突发读取。因此,存储必须同时沿着三个方向发展:每个插槽更多 TB、更快直达 GPU 内存的数据通道以及能够适应不断变化的工作负载的更智能的分层。
Solidigm 的创新和领先之路已经朝着这个方向发展,包括支持液冷冷板的 E1.S SSD、全速 PCIe Gen5 通道以及旨在减少近设备数据的固件。随着这些功能的成熟,更复杂的人工智能流程可以离开数据中心,在传感器所在的地方运行。
Jeff Harthorn 是 Solidigm 公司的人工智能数据基础设施营销分析师。Jeff 在解决方案架构、产品规划和市场营销方面拥有丰富的实践经验。他负责制定企业人工智能信息,包括液冷式 E1.S 固态硬盘的竞争研究,为我们的客户和合作伙伴将极客级细节转化为清晰的商业价值。Jeff 拥有加州州立大学萨克拉门托分校计算机工程理学学士学位。