英伟达 CMX™(上下文内存扩展)是一种专为 AI 设计的原生存储层,旨在为长上下文、多轮对话以及智能体 AI 推理存储和管理键值 (KV) 缓存。通过利用专用的机柜级闪存层级“G3.5”来扩展 GPU 内存,CMX 避免了“内存墙”瓶颈问题,使 AI 模型能够在不耗尽昂贵的高带宽内存 (HBM) 的情况下,保留海量的对话历史记录和复杂的推理状态。
CMX(曾用名为 ICMS,即推理上下文内存存储)是一个专门设计的存储平台,旨在卸载并复用 AI 推理过程中生成的 KV 缓存。它位于快速 GPU 内存和传统后端存储之间,充当一个机柜级上下文层,使 AI 智能体能够保留长期记忆。英伟达报告称,基于 CMX 的推理在每秒生成的令牌数量上可提升高达 5 倍,且功耗效率提高 5 倍,不过其底层工作负载、系统配置和基准尚未公开披露2。
最初以 ICMS 之名推出,英伟达将该技术重新命名为 CMX,以强调其作为持久化“上下文内存存储”层的作用。这一转变意味着,上下文不再只是临时会话数据,而是成为可复用的核心战略资源2。
现代 AI 智能体不仅能回答问题,还能执行多步骤推理——这需要数百万个令牌的上下文。
CMX 架构在第三级存储和第四级存储之间充当一个解耦的内存层,被称为 G3.5 级内存。CMX 利用英伟达 BlueField-4 STX 数据处理单元 (DPU),通过 Spectrum-X 以太网架构来管理 NVMe SSD。
它采用两种专门的软件工具来管理后台的内存移动操作:DOCA Memos 提供键值应用程序编程接口 (API),使推理框架能够直接读写 CMX 层中的 KV 缓存块,而无需主机中央处理器 (CPU) 的参与。NIXL(英伟达推理传输库)负责协调数据传输的时序,确保在 GPU 实际请求数据之前,所需信息已经准备就绪,避免请求完成后空等闲置2。
被移动的数据是 KV 缓存,即 AI 智能体用于保存当前对话或上下文的短期记忆。通过预先整理好的数据块来移动 KV 缓存等数据,可显著提升数据处理效率。这样,当 GPU 需要回溯对话早期内容时,相关上下文数据已提前就绪,从而不会影响下一轮结果的生成速度。
CMX 在标准数据中心架构中引入了一个新的层级:
CMX 通过硬件加速的键值缓存部署、借助 Spectrum-X 实现的基于远程直接内存访问 (RDMA) 的数据传输,以及通过 NVIDIA Dynamo 实现的无缝编排,实现性能提升。其旨在通过消除因上下文重新计算导致的空闲时间或停滞,最大限度地提高 GPU 利用率,并为大型企业级人工智能工厂提供安全的多租户环境。
| 指标 | 传统存储 | 英伟达 CMX 平台 |
| 吞吐量 (TPS) | 基准值(1 倍) | 高达 5 倍2 |
| 能效 | 标准 | 高达 5 倍更优2 |
| TTFT 延迟 | 高(需重新计算) | 低(缓存复用) |
| 扩展逻辑 | 通用型 | AI 原生(KV 感知) |
英伟达 CMX 利用 NIXL(英伟达推理传输库)将通过以太网连接的闪存转变为上下文池,使 AI 无需重新读取整个数据集,就能立即恢复执行复杂任务。这种“即时恢复”能力使真正的智能体式工作流成为可能,AI 可暂停任务、等待外部输入,并在完整保留认知状态的情况下继续执行。
要理解 CMX 的价值,可以将其视为现代数据中心内存体系中缺失的关键一环。传统架构中,3 级内存中的高速 DRAM 与 4 级内存中的标准网络存储之间存在显著的性能差距。CMX 引入了一个全新的专用内存层,即 G3.5 级内存,专为处理 AI 智能体需要即时回忆的“高频使用”情境数据而设计。
该内存层级结构的构建旨在平衡速度、容量和成本,同时各层级的容量和访问延迟也会逐级提升。通过在该层级结构中引入 CMX,英伟达可让 GPU 将对话状态卸载到成本效益高的闪存层级。当用户重新进入对话,或智能体推进至任务下一阶段时,NIXL(英伟达推理传输库)会立即将特定的内存数据重新加载至 GPU,从而避免高成本的重新计算2。
CMX 是长上下文推理、即时恢复会话以及多智能体协作的基础架构 对于那些在数十亿个令牌上部署数万亿参数的企业而言,维持一个持久且高速的内存层是唯一能够在不产生过高成本或延迟的情况下实现扩展的方法,而 CMX 正是满足这一需求的理想选择。
在复杂的法律或医疗分析场景中,智能体可能需要在持续数天的交互过程中保留对数千页文档内容的记忆。CMX 可在用户发起交互时,提前将相关上下文加载至 GPU,使 AI 智能体能够快速响应,并持续保持深度上下文理解能力。
对于需要支持数千并发用户的企业,CMX 可有效缓解“内存墙”问题,避免内存瓶颈导致系统崩溃。通过将 KV 缓存卸载到 CMX 层级,系统能够提升单 GPU 的用户承载能力,从而显著降低总拥有成本 (TCO)。
实施 CMX 需要以英伟达的 BlueField-4 STX(存储技术扩展)处理器为基础,并搭配液冷 JBOF(磁盘簇)机箱中的 E3.S NVMe SSD。英伟达提供模块化参考架构,由制造和存储领域的合作伙伴负责搭建平台。计算机柜通过支持 RDMA 的 Spectrum-X 以太网访问 CMX,KV 缓存的移动由 NVIDIA Dynamo 进行编排,而 DOCA Memos 则在 BlueField-4 上处理输入/输出 (I/O) 层面的事务。
英伟达自身并不制造固态硬盘机箱。STX 参考架构由多个层级的合作伙伴共同实现,相关平台预计于 2026 年下半年开始交付4。
CMX 部署所需的 SSD,取决于工作负载在 KV 缓存生命周期中的主要驻留阶段,以及系统瓶颈更偏向延迟余量还是机架级存储密度。Solidigm 提供了两款分别面向这一设计空间两端需求的固态硬盘。
Solidigm D7-PS1010 是一款 PCIe Gen5 三层单元 (TLC) NVMe SSD,专为持续真实推理负载下的高吞吐和可预测低延迟而设计。在长上下文推理、多轮智能体会话和高并发计算机柜等场景中,处理停顿会直接造成 GPU 周期空转,因此 D7-PS1010 成为更优选择。其性能配置专为满足令牌生成关键路径上对延迟敏感的读取需求而设计,而这正是计算机柜级上下文层级必须满足的条件。
Solidigm D5-P5336 是一款高密度的四层单元 (QLC) NVMe 固态硬盘,容量最高可达 122TB。在以机架级 TB 容量为主要约束的 CMX 部署中,D5-P5336 可在受限的机架空间与功耗预算内实现更高存储密度。它还可作为为上层 CMX 提供数据支撑的 4 级网络存储层基础,非常适合希望通过单一供应商构建完整推理存储层级结构的企业。
以下是一般性指导原则:
如需深入了解为何闪存——尤其是这些设计权衡——是解决推理内存瓶颈问题的正确方案,请参阅 Solidigm 的文章《推理上下文内存存储 (ICMS):为何 AI 推理正成为一个只有闪存才能解决的问题》。
从传统的 4 级内存层级结构向 CMX 的转变,标志着行业在处理人工智能内存方式上的重大转变。通过突破传统图形处理器 (GPU) 视频随机存取存储器 (VRAM) 和系统动态随机存取存储器 (DRAM) 的限制,CMX 为下一代智能体式 AI 提供了所需的高带宽、低延迟基础。
随着模型在单个会话中逐渐发展到能够处理数万亿参数和数百万个令牌,有效存储和重复使用 KV 缓存已不再只是优化选项,而是基础要求。CMX 可帮助 AI 工厂以高达 5 倍的能效2提升和更高吞吐量实现规模扩展,从而有效突破长期制约长上下文推理的“内存墙”瓶颈。
对于构建前沿 AI 应用的企业而言,CMX 是一种认知基础设施,可将传统无状态聊天机器人升级为具备持久记忆与推理能力的智能系统。通过将这一专用 G3.5 层级集成到数据中心架构中,企业终于能够打造兼具深度上下文理解能力与强大算力支撑的 AI 体验。
不,CMX 远不止硬件本身。虽然 CMX 使用了 Solidigm D7-PS1010、D5-P5336 等 NVMe SSD,但其真正的核心能力来自 BlueField-4 DPU 以及 DOCA Memos、NIXL、Dynamo 等软件栈。这种组合能让系统理解 KV 缓存的特定结构,并在图形处理器 (GPU) 和存储之间移动数据,且无需主机中央处理器 (CPU) 参与,这是传统 SSD 无法做到的。
在等待上下文数据重新计算,或从低速存储加载期间,GPU 往往处于空闲状态。CMX 会将这些数据保存在专为人工智能工作负载优化的“热数据层”中。通过重复使用预先计算好的 KV 缓存,GPU 用于重复工作的时间减少,并将更多时间用于生成新令牌。
英伟达将数据中心内存划分为多个层级。G1 和 G2 是芯片内和节点内内存。G3 传统上是本地 DRAM。CMX 引入了全新的 G3.5 层级,它是一种通过以太网连接的、计算机柜级别的上下文内存,比传统网络存储 (G4) 速度更快、效率更高,同时又比本地 SSD 更易扩展。
更名为 CMX,主要是为了提升技术定位的清晰度,并更好地契合市场方向。“上下文内存存储”或“上下文内存扩展”更准确地体现了该技术在人工智能技术栈中的定位,强调它是一个面向人工智能模型“内存”的专用存储平台,而不仅仅是一个管理系统。
是的,CMX 专为英伟达 Spectrum-X 以太网平台而设计。这一点至关重要,因为 CMX 依赖远程直接内存访问 (RDMA) 技术实现零拷贝高效数据传输。如果缺少 Spectrum-X 提供的低延迟无损网络,CMX 层级的性能优势将受到网络抖动带来的瓶颈限制。
目前,CMX 是一套完整的英伟达全栈解决方案。CMX 专为 Vera Rubin 和 Blackwell 平台打造,并依赖 NIXL、DOCA 等英伟达专有软件库。它与英伟达生态系统紧密集成,以实现推理场景所需的亚毫秒级低延迟。
CMX 层级中的数据被视为临时上下文。根据编排层(如英伟达 Dynamo)中设置的策略,上下文可以被缓存以供未来重复使用、转移到冷存储进行长期归档,或者直接删除以释放空间供新会话使用。
每当用户提出新问题时,每次都重新计算上百万个令牌的上下文会消耗大量电力。通过将预计算状态保存在 CMX 中并直接按需读取,系统无需重新执行完整推理流程,从而显著降低功耗。
英伟达 CMX 及其底层 BlueField-4 STX 架构预计将于 2026 年下半年开始通过硬件和存储生态合作伙伴陆续推出。AIC、Supermicro 和 QCT 等主要供应商,已经展示了首批兼容 CMX 的存储服务器。
Jeff Harthorn 是 Solidigm 的 AI 应用研究负责人。他的工作重点是 AI 工作负载与存储架构之间的关系,尤其侧重于推理、上下文内存以及数据管道设计。Jeff 结合应用研究、基准测试和技术传播工作,把复杂的基础设施主题转化为对客户、合作伙伴以及高层领导具有实际指导意义的见解。他拥有加州州立大学萨克拉门托分校计算机工程理学学士学位。
Cecily Whiteside 是 Solidigm 的搜索与内容专家。她为科技、生活方式以及健康养生类网站和出版物撰写文章,曾担任多家杂志的编辑主任,并且在美国国内外其他杂志担任过撰稿人和摄影师。