The Special Memory Powering the AI Revolution

类别: 内存与 HBM · 时长: 13 分钟 · ▶ 观看

讲者: Asianometry

Switch language → English

章节 (8)

00:00:00 · 简介：AI 与高带宽内存
- 本视频介绍了高带宽内存（HBM）作为 Nvidia H100 和 AMD MI300 等现代 AI 加速器中的关键组件。
00:01:07 · 起源：什么是 HBM？
- HBM 是一种 3D 堆叠 DRAM 接口的 JEDEC 标准，旨在通过多个独立的内存通道提供极高的数据传输速率。
03:13:00 · 点对点与宽而慢
- 本节将 GDDR 的“窄而快”点对点架构与 HBM 的“宽而慢”方法进行了对比，后者为 AI 提供了更好的能效和可扩展性。
06:52:00 · 历史
- HBM 标准源于 AMD 在 2000 年代末为克服 GDDR 内存的功耗和扩展限制所做的努力。
07:45:00 · TSV 与微凸块
- 实现 HBM 堆叠架构的核心技术是硅通孔（TSV）和微凸块，它们在芯片之间建立了垂直连接。
08:53:00 · 构建生态系统
- HBM 商业化的最大挑战不是单一的技术障碍，而是协调涉及多个合作伙伴的复杂供应链生态系统。
10:18:00 · 市场与竞争
- 曾经是小众市场的 HBM 市场由于 AI 热潮正在迅速增长，其中 SK Hynix 和 Samsung 占据了主导市场份额。
12:27:00 · 结论
- AI 将 HBM 从一种小众的高端内存转变为半导体供应链中最热门、最关键的组件之一。

内存事实 (12)

[00:10:00] Nvidia H100 的芯片尺寸为 814mm²，并采用 CoWoS-S 封装。
- 814mm²
[00:11:00] Nvidia H100 被 6 堆栈的 HBM 内存所环绕。
- 6
[00:12:00] H100 SXM 版本使用 HBM3，每个堆栈为 16GB，总内存为 80GB。
- 16GB, 80GB
[00:23:00] HBM 代表高带宽内存（High Bandwidth Memory）。
[00:28:00] Nvidia H100 使用 HBM3 变体，这是首款采用该技术的商业产品。
- HBM3
[00:35:00] AMD MI300 拥有 8 堆栈的 HBM，形成 128GB 或 192GB 的统一内存。
- 8, 128GB, 192GB
[00:39:00] AMD MI300 的带宽为 5.6 TB/s。
- 5.6 TB/s
[00:40:00] AMD MI300 的带宽比 Nvidia H100 SXM 80GB 高出 72%，容量高出 60% 到 140%。
- 72%, 60%, 140%
[01:30:00] HBM 引入了堆叠 DRAM 芯片并通过堆栈运行许多独立内存通道的概念。
[04:37:00] SK Hynix 最新的 HBM3 芯片拥有 12 层和 24GB 内存。
- 12, 24GB
[06:18:00] HBM 具有每个堆栈 1024 位的宽内存总线。
- 1024 bits
[06:22:00] GDDR5 具有 64 位内存总线。
- 64 bits

瓶颈观点 (3)

[03:14:00] GDDR 内存架构不太适合繁重的 AI 处理。
- 证据: 它使用“点对点”连接，每个内存通道仅连接到一个模块，这使得扩展总内存容量变得更加困难。它还依赖于更高的时钟速度（“窄而快”），这会消耗更多功率并产生更多热量。
[05:43:00] 内存中更高的时钟速度是一项工程挑战，并且会消耗更多功率。
- 证据: 这是由于需要分配时钟信号，以及晶体管必须更频繁地切换，导致更高的功耗和热量，从而触及系统功率预算的上限。
[07:25:00] GDDR 正在达到其极限，尤其是在功耗方面。
- 证据: 这一限制是 AMD 开始开发后来成为 HBM 的架构的主要动机。

预测 (1)

[10:33:00, 2023-2028] 预计 HBM 芯片市场将从 2023 年的 20 亿美元增长到 2028 年的 63 亿美元。

关键技术 (6)

HBM (High Bandwidth Memory): 一种 3D 堆叠 DRAM 接口的 JEDEC 标准，通过宽并行内存总线提供高带宽和高能效。
Silicon Interposer: 一层用于将多个 HBM 芯片堆栈连接到 GPU 或 CPU 的硅，作用类似于微型 PCB。
DDR (Double Data Rate): 用于 PC 的通用内存模块标准。
GDDR (Graphics Double Data Rate): 显卡的传统内存接口标准，其特点是“窄而快”的架构。
TSV (Through-Silicon Via): 穿过硅晶圆或芯片的垂直电气连接（小孔），可实现如 HBM 等 3D 堆叠芯片。
Microbumps: 在堆叠配置中连接芯片的微小焊点，与 TSV 结合使用。

公司提及 (9)

Nvidia · SK Hynix · AMD · JEDEC · UMC · ASE Group · Samsung · Micron · TSMC

引用 (2)

An explanation from a 2015 interview where he, as a senior fellow at AMD, explained that his team started architecting HBM after seeing the limits of GDDR, especially regarding power consumption. — Bryan Black (AMD) @ 07:14:00

He related that the first HBM product didn’t encounter any single overwhelming technical challenge, but rather the biggest problem was working through a long list of all the ‘newness’. — Bryan Black (AMD) @ 09:08:00

主题

高带宽内存（HBM） · AI 加速器（Nvidia H100, AMD MI300） · DRAM 技术 · GDDR 与 HBM 对比 · 半导体封装（CoWoS, 中介层） · 3D 堆叠 · 硅通孔（TSV） · JEDEC 标准 · 内存带宽 · 内存功耗 · 半导体供应链

要点

高带宽内存（HBM）是当前 AI 热潮的关键赋能技术，被用于 Nvidia 和 AMD 的顶级加速器中。
HBM 通过使用“宽而慢”的架构（具有较低时钟速度的极宽 1024 位内存总线），实现了优于传统 GDDR 的带宽和能效。
该技术依赖于先进的 3D 封装，将多个 DRAM 芯片垂直堆叠，并通过硅通孔（TSV）和微凸块将它们连接起来。
HBM 标准由 AMD 和 SK Hynix 率先提出，旨在克服高性能计算中 GDDR 内存的功耗和扩展限制。
构建 HBM 生态系统是一项巨大的挑战，需要芯片设计公司（AMD）、内存制造商（SK Hynix）、代工厂（UMC）和封装公司（ASE）之间的协调。
HBM 市场目前由韩国公司 SK Hynix 和 Samsung 主导，它们正在激烈竞争并投入巨资扩大产能，以满足 AI 驱动的激增需求。