了解 AI 数据存储中的 CMX(上下文内存扩展)

英伟达 CMX™(上下文内存扩展)是一种专为 AI 设计的原生存储层,旨在为长上下文、多轮对话以及智能体 AI 推理存储和管理键值 (KV) 缓存。通过利用专用的机柜级闪存层级“G3.5”来扩展 GPU 内存,CMX 避免了“内存墙”瓶颈问题,使 AI 模型能够在不耗尽昂贵的高带宽内存 (HBM) 的情况下,保留海量的对话历史记录和复杂的推理状态。

什么是 CMX(上下文内存扩展)?

CMX(曾用名为 ICMS,即推理上下文内存存储)是一个专门设计的存储平台,旨在卸载并复用 AI 推理过程中生成的 KV 缓存。它位于快速 GPU 内存和传统后端存储之间,充当一个机柜级上下文层,使 AI 智能体能够保留长期记忆。英伟达报告称,基于 CMX 的推理在每秒生成的令牌数量上可提升高达 5 倍,且功耗效率提高 5 倍,不过其底层工作负载、系统配置和基准尚未公开披露2

从 ICMS 到 CMX:AI 内存的品牌重塑

最初以 ICMS 之名推出,英伟达将该技术重新命名为 CMX,以强调其作为持久化“上下文内存存储”层的作用。这一转变意味着,上下文不再只是临时会话数据,而是成为可复用的核心战略资源2

  • 传统方法:KV 缓存要么存储在 HBM 中(容量受限),要么卸载到本地 SSD(无法在机柜内共享),要么推送到传统网络存储(存在争用和高延迟问题),甚至直接重新计算(浪费计算资源、能源,并增加首次生成令牌所需时间 (TTFT))3。
  • CMX 方法:上下文被卸载到由 BlueField-4 数据处理单元 (DPU) 管理的以太网连接闪存层,使整个计算机柜都能访问这些数据。

为什么 CMX 对智能体 AI 至关重要

现代 AI 智能体不仅能回答问题,还能执行多步骤推理——这需要数百万个令牌的上下文。

  • 持久性:会话不会因超出 GPU 内存容量而超时或丢失细节。
  • 共享:多个 AI 智能体可以同时访问同一个上下文内存池。
  • 效率:复用 CMX 中预先计算的 KV 缓存,而非重新计算,可节省大量计算周期和能源。

CMX 架构的工作原理

CMX 架构在第三级存储和第四级存储之间充当一个解耦的内存层,被称为 G3.5 级内存。CMX 利用英伟达 BlueField-4 STX 数据处理单元 (DPU),通过 Spectrum-X 以太网架构来管理 NVMe SSD。

它采用两种专门的软件工具来管理后台的内存移动操作:DOCA Memos 提供键值应用程序编程接口 (API),使推理框架能够直接读写 CMX 层中的 KV 缓存块,而无需主机中央处理器 (CPU) 的参与。NIXL(英伟达推理传输库)负责协调数据传输的时序,确保在 GPU 实际请求数据之前,所需信息已经准备就绪,避免请求完成后空等闲置2

被移动的数据是 KV 缓存,即 AI 智能体用于保存当前对话或上下文的短期记忆。通过预先整理好的数据块来移动 KV 缓存等数据,可显著提升数据处理效率。这样,当 GPU 需要回溯对话早期内容时,相关上下文数据已提前就绪,从而不会影响下一轮结果的生成速度。

采用 CMX 后的内存层级结构

CMX 在标准数据中心架构中引入了一个新的层级:

  • 0 级内存:最快的内存,直接集成在 GPU 内部。具有极低的延迟,但容量非常小,仅用于即时活跃计算。
  • 1 级内存:与加速器(如 Blackwell、Rubin)共封装的高带宽内存 (HBM),为推理过程中的计算核心提供所需的数据带宽。
  • 2 级内存:DRAM/主机内存 (Grace/Vera CPU),即高速系统随机存取存储器 (Grace/Vera CPU),用于短期数据溢出存储。其容量高于 HBM,但延迟也相对较高。
  • 3 级内存:本地 SSD,即节点本地 NVMe 闪存。其容量超过 DRAM,但无法在机柜内共享。
  • 3.5 级内存:CMX(G3.5 级)是通过以太网连接的闪存,针对高频使用、可重复利用的键值缓存进行了优化。通过 BlueField-4 和 Spectrum-X,整个计算机柜均可访问 CMX,因此 GPU 无需为下一步重新计算上下文3
  • 4 级内存:存储设备,通常为 NVMe/闪存,用于长期存储、数据湖以及冷数据归档。

BlueField-4 和 DOCA Memos 的作用

  • BlueField-4 DPU 充当 CMX 的存储大脑。它将数据完整性校验、加密以及 KV 缓存路由等任务从 GPU 卸载下来,使计算资源能够完全专注于令牌生成。
  • DOCA Memos 提供了简化的键值 API,让应用程序能够像访问本地缓存一样与此存储进行交互。

CMX 的关键特性与能力

CMX 通过硬件加速的键值缓存部署、借助 Spectrum-X 实现的基于远程直接内存访问 (RDMA) 的数据传输,以及通过 NVIDIA Dynamo 实现的无缝编排,实现性能提升。其旨在通过消除因上下文重新计算导致的空闲时间或停滞,最大限度地提高 GPU 利用率,并为大型企业级人工智能工厂提供安全的多租户环境。

英伟达报告的性能与能效提升

指标 传统存储 英伟达 CMX 平台
吞吐量 (TPS) 基准值(1 倍) 高达 5 倍2
能效 标准 高达 5 倍更优2
TTFT 延迟 高(需重新计算) 低(缓存复用)
扩展逻辑 通用型 AI 原生(KV 感知)

KV 缓存复用与 NIXL

英伟达 CMX 利用 NIXL(英伟达推理传输库)将通过以太网连接的闪存转变为上下文池,使 AI 无需重新读取整个数据集,就能立即恢复执行复杂任务。这种“即时恢复”能力使真正的智能体式工作流成为可能,AI 可暂停任务、等待外部输入,并在完整保留认知状态的情况下继续执行。

CMX 在内存层级结构中的定位

要理解 CMX 的价值,可以将其视为现代数据中心内存体系中缺失的关键一环。传统架构中,3 级内存中的高速 DRAM 与 4 级内存中的标准网络存储之间存在显著的性能差距。CMX 引入了一个全新的专用内存层,即 G3.5 级内存,专为处理 AI 智能体需要即时回忆的“高频使用”情境数据而设计。

该内存层级结构的构建旨在平衡速度、容量和成本,同时各层级的容量和访问延迟也会逐级提升。通过在该层级结构中引入 CMX,英伟达可让 GPU 将对话状态卸载到成本效益高的闪存层级。当用户重新进入对话,或智能体推进至任务下一阶段时,NIXL(英伟达推理传输库)会立即将特定的内存数据重新加载至 GPU,从而避免高成本的重新计算2

CMX 在现代企业中的应用场景

CMX 是长上下文推理、即时恢复会话以及多智能体协作的基础架构 对于那些在数十亿个令牌上部署数万亿参数的企业而言,维持一个持久且高速的内存层是唯一能够在不产生过高成本或延迟的情况下实现扩展的方法,而 CMX 正是满足这一需求的理想选择。

多轮智能体推理

在复杂的法律或医疗分析场景中,智能体可能需要在持续数天的交互过程中保留对数千页文档内容的记忆。CMX 可在用户发起交互时,提前将相关上下文加载至 GPU,使 AI 智能体能够快速响应,并持续保持深度上下文理解能力。

高并发 AI 工厂

对于需要支持数千并发用户的企业,CMX 可有效缓解“内存墙”问题,避免内存瓶颈导致系统崩溃。通过将 KV 缓存卸载到 CMX 层级,系统能够提升单 GPU 的用户承载能力,从而显著降低总拥有成本 (TCO)。

实施与生态系统

实施 CMX 需要以英伟达的 BlueField-4 STX(存储技术扩展)处理器为基础,并搭配液冷 JBOF(磁盘簇)机箱中的 E3.S NVMe SSD。英伟达提供模块化参考架构,由制造和存储领域的合作伙伴负责搭建平台。计算机柜通过支持 RDMA 的 Spectrum-X 以太网访问 CMX,KV 缓存的移动由 NVIDIA Dynamo 进行编排,而 DOCA Memos 则在 BlueField-4 上处理输入/输出 (I/O) 层面的事务。

CMX 机箱生态系统

英伟达自身并不制造固态硬盘机箱。STX 参考架构由多个层级的合作伙伴共同实现,相关平台预计于 2026 年下半年开始交付4

  • 制造合作伙伴(JBOF/平台搭建商): AIC、Supermicro 和 Quanta Cloud Technology (QCT)。
  • 系统原始设备制造商 (OEM):Dell Technologies、HPE、IBM、NetApp、Hitachi Vantara 和 Nutanix。
  • 存储软件提供商:VAST Data、WEKA、DDN、MinIO、Cloudian 和 Everpure。
  • 早期采用者云服务提供商:CoreWeave、Crusoe、IREN、Lambda、Mistral AI、Nebius、Oracle Cloud Infrastructure 和 Vultr。

哪些 Solidigm™ 固态硬盘产品最适合 CMX?

CMX 部署所需的 SSD,取决于工作负载在 KV 缓存生命周期中的主要驻留阶段,以及系统瓶颈更偏向延迟余量还是机架级存储密度。Solidigm 提供了两款分别面向这一设计空间两端需求的固态硬盘。

适用于热数据高复用上下文层的 Solidigm™ D7-PS1010

Solidigm D7-PS1010 是一款 PCIe Gen5 三层单元 (TLC) NVMe SSD,专为持续真实推理负载下的高吞吐和可预测低延迟而设计。在长上下文推理、多轮智能体会话和高并发计算机柜等场景中,处理停顿会直接造成 GPU 周期空转,因此 D7-PS1010 成为更优选择。其性能配置专为满足令牌生成关键路径上对延迟敏感的读取需求而设计,而这正是计算机柜级上下文层级必须满足的条件。

适用于容量优化型上下文和温数据扩展的 Solidigm™ D5-P5336

Solidigm D5-P5336 是一款高密度的四层单元 (QLC) NVMe 固态硬盘,容量最高可达 122TB。在以机架级 TB 容量为主要约束的 CMX 部署中,D5-P5336 可在受限的机架空间与功耗预算内实现更高存储密度。它还可作为为上层 CMX 提供数据支撑的 4 级网络存储层基础,非常适合希望通过单一供应商构建完整推理存储层级结构的企业。

二者如何选择

以下是一般性指导原则:

  • 高复用、低延迟敏感型 KV 流量:D7-PS1010
  • 容量优先、受机架密度限制的部署场景:D5-P5336
  • 混合计算机柜:两者协同使用,其中 D7-PS1010 用于活跃 CMX 层,而 D5-P5336 则则承载温上下文及其底层数据湖。

如需深入了解为何闪存——尤其是这些设计权衡——是解决推理内存瓶颈问题的正确方案,请参阅 Solidigm 的文章《推理上下文内存存储 (ICMS):为何 AI 推理正成为一个只有闪存才能解决的问题》。

AI 的未来取决于上下文内存存储

从传统的 4 级内存层级结构向 CMX 的转变,标志着行业在处理人工智能内存方式上的重大转变。通过突破传统图形处理器 (GPU) 视频随机存取存储器 (VRAM) 和系统动态随机存取存储器 (DRAM) 的限制,CMX 为下一代智能体式 AI 提供了所需的高带宽、低延迟基础。

随着模型在单个会话中逐渐发展到能够处理数万亿参数和数百万个令牌,有效存储和重复使用 KV 缓存已不再只是优化选项,而是基础要求。CMX 可帮助 AI 工厂以高达 5 倍的能效2提升和更高吞吐量实现规模扩展,从而有效突破长期制约长上下文推理的“内存墙”瓶颈。

对于构建前沿 AI 应用的企业而言,CMX 是一种认知基础设施,可将传统无状态聊天机器人升级为具备持久记忆与推理能力的智能系统。通过将这一专用 G3.5 层级集成到数据中心架构中,企业终于能够打造兼具深度上下文理解能力与强大算力支撑的 AI 体验。


常见问题解答

CMX 代表“上下文内存扩展 (Context Memory eXtension)”。在某些情况下,它也被称为上下文内存存储。在开发阶段,CMX 曾被称为 ICMS(Inference Context Management Storage,推理上下文管理存储)。这一名称由英伟达首席执行官黄仁勋于 2026 年 1 月 CES 大会期间首次公开。随后,他又在 2026 年 3 月英伟达 GTC 大会的主题演讲中宣布,将其正式更名为 CMX。此次更名体现了英伟达对 AI 原生存储的更广泛愿景:相比传统的文件型数据,更加重视 AI 推理过程中的“上下文”信息及其数学状态。

不,CMX 远不止硬件本身。虽然 CMX 使用了 Solidigm D7-PS1010、D5-P5336 等 NVMe SSD,但其真正的核心能力来自 BlueField-4 DPU 以及 DOCA Memos、NIXL、Dynamo 等软件栈。这种组合能让系统理解 KV 缓存的特定结构,并在图形处理器 (GPU) 和存储之间移动数据,且无需主机中央处理器 (CPU) 参与,这是传统 SSD 无法做到的。

在等待上下文数据重新计算,或从低速存储加载期间,GPU 往往处于空闲状态。CMX 会将这些数据保存在专为人工智能工作负载优化的“热数据层”中。通过重复使用预先计算好的 KV 缓存,GPU 用于重复工作的时间减少,并将更多时间用于生成新令牌。

英伟达将数据中心内存划分为多个层级。G1 和 G2 是芯片内和节点内内存。G3 传统上是本地 DRAM。CMX 引入了全新的 G3.5 层级,它是一种通过以太网连接的、计算机柜级别的上下文内存,比传统网络存储 (G4) 速度更快、效率更高,同时又比本地 SSD 更易扩展。

更名为 CMX,主要是为了提升技术定位的清晰度,并更好地契合市场方向。“上下文内存存储”或“上下文内存扩展”更准确地体现了该技术在人工智能技术栈中的定位,强调它是一个面向人工智能模型“内存”的专用存储平台,而不仅仅是一个管理系统。

是的,CMX 专为英伟达 Spectrum-X 以太网平台而设计。这一点至关重要,因为 CMX 依赖远程直接内存访问 (RDMA) 技术实现零拷贝高效数据传输。如果缺少 Spectrum-X 提供的低延迟无损网络,CMX 层级的性能优势将受到网络抖动带来的瓶颈限制。

目前,CMX 是一套完整的英伟达全栈解决方案。CMX 专为 Vera Rubin 和 Blackwell 平台打造,并依赖 NIXL、DOCA 等英伟达专有软件库。它与英伟达生态系统紧密集成,以实现推理场景所需的亚毫秒级低延迟。

CMX 层级中的数据被视为临时上下文。根据编排层(如英伟达 Dynamo)中设置的策略,上下文可以被缓存以供未来重复使用、转移到冷存储进行长期归档,或者直接删除以释放空间供新会话使用。

每当用户提出新问题时,每次都重新计算上百万个令牌的上下文会消耗大量电力。通过将预计算状态保存在 CMX 中并直接按需读取,系统无需重新执行完整推理流程,从而显著降低功耗。

英伟达 CMX 及其底层 BlueField-4 STX 架构预计将于 2026 年下半年开始通过硬件和存储生态合作伙伴陆续推出。AIC、Supermicro 和 QCT 等主要供应商,已经展示了首批兼容 CMX 的存储服务器。


关于作者

Jeff Harthorn 是 Solidigm 的 AI 应用研究负责人。他的工作重点是 AI 工作负载与存储架构之间的关系,尤其侧重于推理、上下文内存以及数据管道设计。Jeff 结合应用研究、基准测试和技术传播工作,把复杂的基础设施主题转化为对客户、合作伙伴以及高层领导具有实际指导意义的见解。他拥有加州州立大学萨克拉门托分校计算机工程理学学士学位。

Cecily Whiteside 是 Solidigm 的搜索与内容专家。她为科技、生活方式以及健康养生类网站和出版物撰写文章,曾担任多家杂志的编辑主任,并且在美国国内外其他杂志担任过撰稿人和摄影师。

参考资料:

  1. 英伟达 CMX 上下文内存存储平台;英伟达 (https://www.nvidia.com/en-us/data-center/ai-storage/cmx/)
  2. 推出由英伟达 BlueField-4 驱动的 CMX 上下文内存存储平台,助力 AI 新前沿发展;英伟达。(https://developer.nvidia.com/blog/introducing-nvidia-bluefield-4-powered-inference-context-memory-storage-platform-for-the-next-frontier-of-ai/)
  3. 推理上下文内存存储 (ICMS):为何 AI 推理正成为一个唯有闪存才能解决的问题;Solidigm。(https://www.solidigm.com/products/technology/icmsp-ai-inference-is-flash-storage-problem.html)
  4. 英伟达 Vera Rubin 平台开启智能体 AI 新前沿;英伟达新闻中心。(https://nvidianews.nvidia.com/news/nvidia-vera-rubin-platform)