Breaking Through GPU Memory Wall (NVIDIA + VAST Data)

类别: 内存与 HBM · 时长: 46 分钟 · ▶ 观看

讲者: Anat Heifetz (VAST Data) · Dr. Vikram Sharma (NVIDIA)

章节 (14)

00:00:01 · 简介：GPU 内存墙
- 演讲者介绍了 GPU 内存墙作为扩展 AI 的主要瓶颈，将焦点从计算转移到内存管理。
00:00:41 · 演讲者介绍
- 介绍了来自 VAST Data 的 Anat Heifetz 和来自 NVIDIA 的 Dr. Vikram Sharma，强调了他们在 AI 架构和研究中的角色。
00:01:50 · 演讲大纲
- 演讲围绕三个领域展开：AI 推理的现状、当前的实用解决方案以及下一代架构 (CMX)。
00:03:04 · 最先进的推理与代理式 AI
- 讨论了从单提示聊天机器人向多步骤、基于推理的代理式 AI 工作流的转变，强调了对持久上下文的需求。
00:05:07 · KV Cache：基础与挑战
- 解释了推理流水线中预填充和解码阶段的基础知识，以及 KV caching 的工作原理及其计算时间如何随着上下文长度呈爆炸式增长。
00:06:19 · 推理上下文成为新瓶颈
- 演讲解释了推理上下文如何成为新的瓶颈，并介绍了上下文内存层级的概念。
00:07:35 · NVIDIA 与 VAST 合作：加速推理
- 详细介绍了 NVIDIA 和 VAST 之间的合作，重点关注用于大规模分布式推理的 NVIDIA Dynamo 框架。
00:09:50 · VAST 对 Dynamo 的贡献
- 解释了 VAST 数据服务与 Dynamo 架构的集成，突出了性能提升和企业级特性。
00:12:36 · 性能结果与节省
- 展示了实验结果，表明使用 VAST 的 KV Cache 解决方案可将首个 Token 延迟 (TTFT) 提高 20 倍，并节省 90% 的 GPU 时间。
00:15:51 · 数据缩减与安全
- 概述了 KV cache 实现 1.4 倍数据缩减的好处，以及卸载敏感上下文数据时的关键安全考量。
00:17:38 · 为 KV 加速而设计与引入 CMX
- 确立了对新存储层的需求，从而引入了由 BlueField-4 驱动的 NVIDIA 上下文内存存储 (CMX) 平台。
00:24:13 · 结合 VAST 的 CMX 架构
- 详细介绍了结合 VAST 的 CMX 架构，展示了 VAST 的 DASE 架构和 BlueField-4 DPU 如何实现高效、可扩展的解决方案。
00:27:47 · VAST CMX KV$ 规模调整指南
- 为不同的体验层级（从即时恢复到完整的代理式内存）提供了实用的规模调整指南，展示了从 TB 到 PB 级的容量需求。
00:29:45 · 总结与问答
- 总结了关键要点，随后是与观众的问答环节。

价格数据 (1)

时间	项目	数值	背景
00:14:37	Tokens per Dollar	60%-130% More	在实际部署中，通过 VAST KV cache 加速实现每美元增加 60-130% token 数量的预测。

内存事实 (4)

[00:00:06] GPU 内存墙是扩展 AI 面临的重大挑战。
[00:04:51] KV cache 正在成为一种长期的 AI 内存。
[00:05:44] 125,000 个 token 的上下文长度需要 64 GB 的 KV Cache 内存。
- 125,000 tokens, 64 GB
[00:27:57] 针对 1 万名用户、每次对话 32 GB KV cache 大小的规模调整指南表明，完整的“代理式内存”需要 48 PB。
- 10k users, 32 GB, 48 PB

瓶颈观点 (3)

[00:00:12] 扩展 AI 的主要瓶颈正从计算转向内存管理。
- 证据: 演讲者指出，随着 AI 变得更加复杂和基于推理，对话的上下文变得与模型本身一样重要，给内存系统带来了压力。
[00:06:23] 推理上下文是 AI 系统中的新瓶颈。
- 证据: 上下文庞大、动态，且必须在 GPU 和节点之间共享。本地内存有限，为此扩展传统存储既低效又昂贵。
[00:17:57] 在处理千兆级上下文时，传统存储架构成为吞吐量的瓶颈。
- 证据: 传统存储的延迟拖延了关键的首个 Token 延迟 (TTFT)，而使用标准硬件来解决速度问题在成本、功耗和空间方面都过于昂贵。

预测 (2)

[00:17:47, 下一代] 千兆级上下文需要在速度和经济性上实现超越当前架构所能提供的根本性飞跃。
[00:27:21, 未来] NVIDIA Dynamo API 将演进为直接引导内存系统通过共享服务以独特方式处理不同的数据集。

关键技术 (9)

GPU (Graphics Processing Unit): 用于加速 AI 计算的核心处理器。
LLM (Large Language Model): 正在讨论的 AI 模型类型，其上下文需要大量内存。
KV Cache: 一种内存缓存，用于存储 AI 模型中先前 token 的键和值状态，以避免重新计算并加速推理。
NVIDIA Dynamo: 一个高效、生产级的开源框架，采用模块化设计，用于大规模分布式推理。
VAST Data Platform: 一个分解的、全共享 (DASE) 数据平台，用于存储和加速对 KV Cache 的访问。
CMX (Context Memory Storage): 一个全新的、AI 原生的、Pod 级别的存储层，专为推理上下文和 KV cache 管理而构建，旨在降低 TCO 并提高性能。
NVIDIA BlueField-4 DPU: 为 CMX 平台提供动力的数字处理单元，提供网络、计算和存储处理能力，以卸载主机 CPU/GPU。
NVIDIA Spectrum-X Ethernet: 一个网络平台，为 AI 工作负载提供可预测、低延迟、高带宽的连接，连接 CMX 托盘。
NVIDIA DOCA: 一个 SDK，提供用于连接推理基础设施并与之交互的软件功能，包括用于 CMX 的键值 API。

公司提及 (5)

NVIDIA · VAST Data · OpenAI · Llama Stack · Cisco

引用 (4)

The bottleneck is no longer just compute. It is how we manage memory. — Anat Heifetz @ 00:00:12

Inference context itself is becoming the key bottleneck, and not the primary compute. — Dr. Vikram Sharma @ 00:06:23

We’re not making the GPU faster… but we’re making it available more often, turning the storage into a compute force multiplier. — Anat Heifetz @ 00:15:41

Why are we working with VAST, right? So you are motivated to work with VAST. — Dr. Vikram Sharma @ 00:35:28

主题

GPU 内存墙 · AI 推理优化 · KV Cache 管理 · 代理式 AI · 分布式推理系统 · 数据存储架构 · 降低总拥有成本 (TCO) · NVIDIA Dynamo · VAST Data Platform · 上下文内存存储 (CMX)

要点

扩展现代基于推理的 AI 的主要瓶颈正从原始计算能力转向内存管理，特别是处理代理式工作流所需的大型上下文。
将 KV Cache 从 GPU 内存卸载到专用的高速存储层是克服 GPU 内存墙的关键策略。
NVIDIA（借助 Dynamo 和 CMX）与 VAST Data（借助其 DASE 架构）的合作提供了一种解决方案，可将首个 Token 延迟 (TTFT) 加速高达 20 倍，并将 GPU 利用率提高 90%。
由 BlueField-4 DPU 驱动的全新上下文内存存储 (CMX) 架构创建了一个新的节能存储层，通过将功耗和物理机架空间降低高达 75%，显著降低了总拥有成本 (TCO)。
通过将存储 I/O 瓶颈转化为受网络限制的问题，系统性能可以直接随着网络带宽的提升而扩展。
由于 KV cache 包含敏感数据，将其移出 GPU 需要强大的企业级数据服务，包括加密、多租户安全和审计跟踪，而 VAST 平台提供了这些服务。