数据大放异彩时刻:网络附加存储正驱动 AI 浪潮加速奔涌

20,000,000,000,000 个词元(若您更倾向简洁表达,也可写作 20 万亿) 这是阿里巴巴最新发布的 Qwen2.5-MAX 大型语言模型 (LLM) 基础模型所使用的训练数据集词元数量的预估值。1 假设您和您的后代(不幸地)被逐一征召来手动输入每个词元,大约需要 6 亿年才能完成,2因此请提前做好规划。这一切都在印证:现代 AI 堪称信息饕餮,存储与激活 AI 数据输入输出的过程,正带来前所未有的存储容量与效率挑战。在此背景下,NAS 解决方案已成为管理 AI 模型开发与部署所需海量数据集的关键组件。我们将深入探讨 NAS 在 AI 领域的核心作用、高容量固态硬盘 (SSD) 的价值,以及这些设备在整个 AI 数据流水线中的应用场景与实现方式。

NAS 在 AI 数据流水线中的核心角色

归根结底,AI 是数据与高强度计算的产物,但将原始数据转化为精准模型并非易事。AI 数据流水线涵盖多个既独立又互联的阶段: 

  • 数据采集
  • 预处理和训练
  • 微调
  • 推理
  • 归档  

NAS 是一种集中式、可扩展且易于访问的存储架构,通过赋予分布式系统海量数据的高速访问能力,为 AI 处理流程提供有力支持。与仅本地部署于 GPU 计算服务器的直接附加存储 (DAS) 不同,NAS 能够实现多台服务器、GPU 及边缘设备之间的数据无缝共享,使其成为适配 AI 工作流协作性与迭代性特点的理想选择。经高容量 SSD 优化的 NAS 系统,可使潜在的海量数据集随时可供处理,在最大限度提升 GPU 利用率的同时,将延迟降至最低。 

AI 数据流水线存储需求可视化。

数据量:机器学习的生命线

在机器学习领域,数据量与多样性是驱动模型性能的关键驱动因素。训练数据越多样、越庞大,模型对真实场景的泛化能力就越强。随着训练数据量的增加,模型能从更广泛的模式和边缘案例中学习,进而实现性能的显著提升。

然而,原始数据输入只是一个起点。AI 数据流水线在运行过程中会生成并使用增量数据集,包括:

  • 转换数据:从物联网设备、社交媒体或医学影像等来源采集的原始数据,在转换阶段需经过提取、清理和重新格式化,由此产生的新数据集需要存储支持。
  • 检查点与模型产物:在训练过程中,模型会生成检查点以保存进度——对于需要频繁保存的大规模模型,这些检查点可能占用大量存储空间。
  • 合成数据:人工生成的数据,用于扩充训练数据集、测试模型准确性或解决数据隐私问题。
  • 推理输出:推理阶段处理的真实数据所产生的输出结果,通常需要存储以供分析或再训练,这进一步加剧了存储需求的增长。
  • 检索增强生成 (RAG) 数据库扩展:依赖大规模数据集或高维特征来获取高质量洞察的解决方案,其所需存储容量可能超出内存承载能力。
  • 推理过程中的键值 (KV) 缓存溢出:涉及大型模型、长查询或多轮交互的应用场景中生成的 KV 状态量可能超过本地内存容量限制。
  • 归档数据:出于合规性、再训练或审计目的,对原始数据、转换数据和处理数据进行长期存储至关重要。

这些数据集具有增量累积特性,会使存储需求远超原始数据集规模,进而凸显高容量硬盘在 NAS 解决方案中的核心价值。

用户对 NAS 解决方案的核心需求有哪些? 容量、电力与空间

全球数据中心基础设施提供商 Digital Realty 在近期调研中,请客户对采用正式 AI 策略的主要障碍进行排序。3结果显示,首要挑战是“存储海量数据集的空间不足”,紧随其后的是“计算所需电力短缺”和“缺乏足够的数据存储空间”。  

Solidigm D5-P5336 SSD,容量高达 122TB

面对数据存储挑战,Solidigm 推出了全球容量最大的 PCIe SSD——122.88TB Solidigm™ D5-P5336。这款硬盘以无与伦比的容量、能效比和数据密度,成为 AI 驱动型 NAS 部署的颠覆性解决方案。其主要功能包括:

  • 全球容量最高的 PCIe SSD:122TB D5-P5336 可存储海量数据集,例如足以容纳过去 15 个赛季美国职业橄榄球大联盟 (NFL) 全部 4K 分辨率比赛录像。
  • 功耗与空间效率:在 NAS 部署中,D5-P5336 的功耗较传统混合 HDD + TLC SSD 解决方案降低达 90%5,每瓦特电能可提供的 TB 存储容量是 30TB TLC SSD 的 2.5 倍。
  • 紧凑的空间占用:D5-P5336 可使 NAS 的空间占用减少达 9:16,让数据中心在扩展存储容量的同时,最大限度减少物理基础设施占用。
  • 无限随机写入耐久性:在五年质保期内,即便 7*24 小时全天候进行 32KB 或 4KB 的随机写入,该硬盘也不会因磨损而损坏。 

这些特性与 AI 数据流水线的需求高度契合,尤其是在数据采集和归档阶段,高容量、耐用且高效的存储价值至关重要。

将高容量 SSD 价值映射入 AI 数据流水线各个阶段

D5-P5336 针对 AI 数据流水线中的采集与归档阶段提供定制化优势,精准解决各阶段的独特挑战:

  • 采集:在此阶段,来自事件日志、客户关系管理 (CRM) 系统或激光雷达 (LIDAR) 数据等多样化来源的原始数据以高速写入存储设备。该阶段会产生大量顺序写入操作,而 D5-P5336 凭借其无限写入耐久性,可高效且持久地处理此类任务。这款硬盘的庞大容量使 NAS 系统能够满足大数据的三大特性——数据量、速度与多样性,同时保持可扩展性以适应未来数据增长。
  • 归档:此阶段涉及对原始数据、转换数据和处理数据的长期存储,同时需考虑数据隐私法规要求。基于 D5-P5336 的 NAS 系统凭借 122.88TB 的单盘容量,可在单个 42U NAS 机架中提供惊人的 53PB 原始存储容量5,大幅降低归档存储的物理空间与电力占用。相较于混合存储解决方案,其存储功耗降低 90%,在为再训练或合规需求存储数据时,能带来显著的运营效率优势。
  • 预处理和推理:在数据预处理和推理阶段,NAS 与 DAS 协同工作,提供集中式、可扩展的存储能力,为预处理、模型训练和实时推理任务实现高效的数据访问、管理与传输。
从数据采集、预处理、AI 训练、AI 推理到数据归档的流水线全景。

通过针对这些阶段进行优化,高容量 SSD 可提升 AI 数据流水线的整体效率,实现更快的数据访问、降低运营成本,并为未来的存储增长提供可扩展性。

结论

随着 AI 持续突破数据存储的界限,配备高容量 SSD 的 NAS 系统,正成为管理 AI 数据集的数据量、速度与多样性的关键。122.88TB Solidigm  D5-P5336 SSD 代表着存储技术的重大飞跃,为 NAS 部署提供无与伦比的容量、耐久性和效率。 

Solidigm SSD 产品组合在 AI 数据流水线中的 Solidigm 优势。

通过解决 AI 数据流水线中数据密集型阶段的需求,Solidigm D5-P5336 使企业能够充分挖掘数据的全部潜力——不仅通过更多数据,更通过更多样化的数据推动模型性能提升。随着 AI 工作负载的不断演进,NAS 与高容量 SSD 的组合将继续成为可扩展、高效且高性能数据基础设施的基石。

有关更多信息,请查阅 Solidigm D5-P5336 122.88TB SSD 产品简介。 


关于作者

Dave Sierra 是 Solidigm 的产品营销分析师,专注于解决当今数据中心所面临的基础设施效率挑战。

1 来源 — Epoch.AI,https://epoch.ai/data/notable-ai-models#Documentation 

2 假设平均打字速度为 60 单词/分钟,且平均每个词元大小为 5 个字符

3 来源:Digital Realty,《全球数据洞察调查》,2024 年 8 月

4 假设单场比赛文件大小 30GB(依据 25Mbps 码率的 4K 视频及 H.265/HEVC 压缩标准),平均 NFL 比赛时长 3 小时,每赛季 272 场比赛。

5 来源 — Solidigm。一些结果使用 Solidigm 内部分析、架构模拟或建模进行评测或模拟,仅供参考。您的系统硬件、软件或配置的任何不同均可能会影响实际性能。

6 来源 — Solidigm。基于 42U NAS 机架(36U 可用存储空间)、18 台 2U 存储服务器(每台搭载 24 块 122.88TB SSD)

免责声明

本文中的任何内容均无意作出任何明示或默示的担保,包括但不限于关于适销性、适合特定目的及不侵权的默示保证,或在履行合同、交易过程或贸易惯例中产生的任何担保。

本文所述产品可能存在设计缺陷或错误,已在勘误表中注明,可能会使产品偏离已经发布的技术规范。可应要求提供最新特征勘误表。

Solidigm 不对第三方数据承担任何控制或审计的责任。您应参考其他信息来源以评估准确性。

请在下单之前联系您的 Solidigm 代表或经销商以获取最新规格。

SOLIDIGM 和 Solidigm“S”徽标均为 SK hynix NAND Product Solutions Corp.(以 Solidigm 名义开展业务)的商标,已在美国、中华人民共和国、日本、新加坡、欧盟、英国、墨西哥及其他国家注册。