Dwarkesh + Reiner Pope: How GPT/Claude/Gemini served
类别: 专家访谈 · 时长: 134 分钟 · ▶ 观看
讲者: Dwarkesh Patel · Reiner Pope
章节 (15)
- 00:00 · 简介与快速模式经济学
- Dwarkesh 介绍了 Reiner Pope,并询问为什么 API 提供商对更快的推理速度收费更高。
- 02:00 · 推理延迟的 Roofline 分析
- Reiner 将推理时间分解为计算时间和内存读取时间(权重 + KV cache)。
- 07:50 · 延迟与 Batch Size 的关系
- 绘制延迟如何随 Batch Size 扩展的图表,表明下限由权重读取时间决定。
- 12:40 · 每个 Token 的成本与 Batch Size 的关系
- 绘制成本效率图,证明更大的 Batch Size 可以分摊加载权重的成本。
- 16:00 · 硬件平衡点
- 根据硬件的 FLOPS/带宽比和模型稀疏度,计算系统从内存受限过渡到计算受限的最佳 Batch Size。
- 21:50 · 批处理动态与用户队列
- 解释并发用户如何填满批次,以及推理如何像列车时刻表一样运作。
- 28:50 · 稀疏度与模型质量
- 讨论 DeepMind 的研究:增加专家数量(稀疏度)如何提高模型质量,但收益会递减。
- 33:30 · 混合专家 (MoE) 硬件布局
- 可视化 MoE 层如何使用专家并行和全对全通信分布在多个 GPU 上。
- 44:45 · 内存容量瓶颈
- 探讨由于 HBM 容量有限,KV cache 大小如何限制 Batch Size 和上下文长度。
- 53:00 · 流水线并行
- 将模型层拆分到不同机架上如何解决内存容量问题,但同时引入了通信挑战。
- 01:00:00 · 纵向扩展 (Scale-Up) 与横向扩展 (Scale-Out) 网络
- 比较机架内连接 (NVLink) 与机架间连接 (Ethernet/InfiniBand) 的带宽。
- 01:13:00 · 训练与推理计算比率
- 将预训练、RLHF 和推理的成本等同起来,以确定模型应该在超过 ‘Chinchilla optimal’ 多远的程度上进行训练。
- 01:30:00 · 内存层级:HBM vs. DDR vs. Flash
- 分析根据保留时间将 KV cache 卸载到更慢、更便宜的内存层级的经济学。
- 01:42:00 · 可逆网络 (RevNets)
- RevNets 如何通过重新计算激活值而不是存储它们来在训练期间节省内存。
- 01:50:00 · 神经网络与密码学
- 比较神经网络提取结构的特性与密码算法隐藏结构的特性。
价格数据 (2)
| 时间 | 项目 | 数值 | 背景 |
|---|---|---|---|
| 01:01 | Fast Mode API Inference | 6x price for 2.5x speed | Dwarkesh 询问为什么像 Anthropic 这样的提供商可以对更低的延迟收取溢价。 |
| 12:58 | GPU Rental Cost | ~$2/hour | Reiner 使用云 GPU 租赁的粗略估计来解释每个 Token 的推理成本。 |
内存事实 (3)
- [14:18] 现代芯片(如 Rubin)上 FLOPS 与内存带宽的硬件比率
- 288 GB / 20 TB/s = ~15ms to read all memory; FLOPS/BW ratio is ~300.
- [44:45] 8-GPU Hopper 机架的 HBM 容量
- 640 GB
- [44:55] Blackwell 纵向扩展 (scale-up) 域的 HBM 容量
- 10 to 20 Terabytes
瓶颈观点 (3)
- [11:30] 在较小的 Batch Size 下,推理受限于内存带宽;在较大的 Batch Size 下,它受限于计算。
- 证据: 延迟图上平坦的权重读取线与线性增长的计算线的交点。
- [44:00] 最大 Batch Size 和上下文长度最终受限于内存容量,而不仅仅是带宽。
- 证据: 方程 $C_{mem} = N_{total} + B \cdot len_{ctx} \cdot bytes_{token}$。随着 B 或上下文长度的增长,KV cache 会超过可用的 HBM。
- [01:00:00] 横向扩展网络(机架到机架)是 MoE 全对全通信的主要瓶颈。
- 证据: 横向扩展带宽比纵向扩展(机架内)带宽慢约 8 倍,这使得跨机架拆分 MoE 层效率低下。
预测 (1)
- [01:20:00, 当前/近期] 前沿模型的训练将大大超过 Chinchilla optimal 点,因为庞大的推理规模使得在训练上花费更多以获得更小、更快的模型在经济上是可行的。
关键技术 (4)
- KV Cache: 在自回归解码期间存储过去 Token 的内部表示,这样它们就不需要被重新计算,从而用内存容量换取计算量的节省。
- Mixture of Experts (MoE): 将 Token 路由到专门的神经网络层(专家)的子集,增加总参数量,而不会成比例地增加每个 Token 的活跃计算量。
- Pipeline Parallelism: 将模型的连续层拆分到不同的 GPU 或机架上,以容纳超过单个域内存容量的模型。
- Reversible Networks (RevNets): 一种允许在反向传播期间精确重新计算激活值的架构,消除了在前向传播期间将它们存储在内存中的需要。
公司提及 (5)
Anthropic (Claude) · DeepSeek · DeepMind · Nvidia · Google
引用 (2)
For a particular context length where the slopes match, that says I am equally memory bound and compute bound, which is a really desirable place to be. — Reiner Pope @ 11:30
You can think of this as a schedule for the train. A new train departs every 20 milliseconds. Any passengers who are ready board the train. — Reiner Pope @ 21:50
主题
AI 推理经济学 · 硬件瓶颈(计算 vs. 内存带宽 vs. 内存容量) · LLM 服务中的批处理与排队论 · 混合专家 (MoE) 路由与并行 · 数据中心网络拓扑(纵向扩展 vs. 横向扩展) · 最佳训练与推理计算分配 · 内存分层(HBM、DDR、Flash) · 可逆神经网络
要点
- 推理延迟受到内存带宽(加载权重)的硬性限制,而成本效率需要较大的 Batch Size 来分摊该内存读取成本。
- 为了充分利用现代 AI 硬件,Batch Size 必须很大(例如,>2000),这需要海量的并发用户需求。
- 由于 KV cache 的大小,内存容量 (HBM) 是大 Batch Size 和长上下文窗口的最终瓶颈。
- 因为大规模的推理计算远远超过了训练计算,所以在经济上最佳的做法是将模型的训练程度远远超过 ‘Chinchilla optimal’ 点,以使它们更小、服务成本更低。