20,000,000,000,000 个词元(若您更倾向简洁表达,也可写作 20 万亿) 这是阿里巴巴最新发布的 Qwen2.5-MAX 大型语言模型 (LLM) 基础模型所使用的训练数据集词元数量的预估值。1 假设您和您的后代(不幸地)被逐一征召来手动输入每个词元,大约需要 6 亿年才能完成,2因此请提前做好规划。这一切都在印证:现代 AI 堪称信息饕餮,存储与激活 AI 数据输入输出的过程,正带来前所未有的存储容量与效率挑战。在此背景下,NAS 解决方案已成为管理 AI 模型开发与部署所需海量数据集的关键组件。我们将深入探讨 NAS 在 AI 领域的核心作用、高容量固态硬盘 (SSD) 的价值,以及这些设备在整个 AI 数据流水线中的应用场景与实现方式。
归根结底,AI 是数据与高强度计算的产物,但将原始数据转化为精准模型并非易事。AI 数据流水线涵盖多个既独立又互联的阶段:
NAS 是一种集中式、可扩展且易于访问的存储架构,通过赋予分布式系统海量数据的高速访问能力,为 AI 处理流程提供有力支持。与仅本地部署于 GPU 计算服务器的直接附加存储 (DAS) 不同,NAS 能够实现多台服务器、GPU 及边缘设备之间的数据无缝共享,使其成为适配 AI 工作流协作性与迭代性特点的理想选择。经高容量 SSD 优化的 NAS 系统,可使潜在的海量数据集随时可供处理,在最大限度提升 GPU 利用率的同时,将延迟降至最低。
在机器学习领域,数据量与多样性是驱动模型性能的关键驱动因素。训练数据越多样、越庞大,模型对真实场景的泛化能力就越强。随着训练数据量的增加,模型能从更广泛的模式和边缘案例中学习,进而实现性能的显著提升。
然而,原始数据输入只是一个起点。AI 数据流水线在运行过程中会生成并使用增量数据集,包括:
这些数据集具有增量累积特性,会使存储需求远超原始数据集规模,进而凸显高容量硬盘在 NAS 解决方案中的核心价值。
全球数据中心基础设施提供商 Digital Realty 在近期调研中,请客户对采用正式 AI 策略的主要障碍进行排序。3结果显示,首要挑战是“存储海量数据集的空间不足”,紧随其后的是“计算所需电力短缺”和“缺乏足够的数据存储空间”。
面对数据存储挑战,Solidigm 推出了全球容量最大的 PCIe SSD——122.88TB Solidigm™ D5-P5336。这款硬盘以无与伦比的容量、能效比和数据密度,成为 AI 驱动型 NAS 部署的颠覆性解决方案。其主要功能包括:
这些特性与 AI 数据流水线的需求高度契合,尤其是在数据采集和归档阶段,高容量、耐用且高效的存储价值至关重要。
D5-P5336 针对 AI 数据流水线中的采集与归档阶段提供定制化优势,精准解决各阶段的独特挑战:
通过针对这些阶段进行优化,高容量 SSD 可提升 AI 数据流水线的整体效率,实现更快的数据访问、降低运营成本,并为未来的存储增长提供可扩展性。
随着 AI 持续突破数据存储的界限,配备高容量 SSD 的 NAS 系统,正成为管理 AI 数据集的数据量、速度与多样性的关键。122.88TB Solidigm D5-P5336 SSD 代表着存储技术的重大飞跃,为 NAS 部署提供无与伦比的容量、耐久性和效率。
通过解决 AI 数据流水线中数据密集型阶段的需求,Solidigm D5-P5336 使企业能够充分挖掘数据的全部潜力——不仅通过更多数据,更通过更多样化的数据推动模型性能提升。随着 AI 工作负载的不断演进,NAS 与高容量 SSD 的组合将继续成为可扩展、高效且高性能数据基础设施的基石。
有关更多信息,请查阅 Solidigm D5-P5336 122.88TB SSD 产品简介。
Dave Sierra 是 Solidigm 的产品营销分析师,专注于解决当今数据中心所面临的基础设施效率挑战。
1 来源 — Epoch.AI,https://epoch.ai/data/notable-ai-models#Documentation
2 假设平均打字速度为 60 单词/分钟,且平均每个词元大小为 5 个字符
3 来源:Digital Realty,《全球数据洞察调查》,2024 年 8 月
4 假设单场比赛文件大小 30GB(依据 25Mbps 码率的 4K 视频及 H.265/HEVC 压缩标准),平均 NFL 比赛时长 3 小时,每赛季 272 场比赛。
5 来源 — Solidigm。一些结果使用 Solidigm 内部分析、架构模拟或建模进行评测或模拟,仅供参考。您的系统硬件、软件或配置的任何不同均可能会影响实际性能。
6 来源 — Solidigm。基于 42U NAS 机架(36U 可用存储空间)、18 台 2U 存储服务器(每台搭载 24 块 122.88TB SSD)
本文中的任何内容均无意作出任何明示或默示的担保,包括但不限于关于适销性、适合特定目的及不侵权的默示保证,或在履行合同、交易过程或贸易惯例中产生的任何担保。
本文所述产品可能存在设计缺陷或错误,已在勘误表中注明,可能会使产品偏离已经发布的技术规范。可应要求提供最新特征勘误表。
Solidigm 不对第三方数据承担任何控制或审计的责任。您应参考其他信息来源以评估准确性。
请在下单之前联系您的 Solidigm 代表或经销商以获取最新规格。
SOLIDIGM 和 Solidigm“S”徽标均为 SK hynix NAND Product Solutions Corp.(以 Solidigm 名义开展业务)的商标,已在美国、中华人民共和国、日本、新加坡、欧盟、英国、墨西哥及其他国家注册。