Acquired NVIDIA Part III: The Dawn of the AI Era (2022-2023)
类别: Acquired 长篇深度 · 时长: 174 分钟 · ▶ 观看
讲者: Acquired Podcast (Ben & David) · Ben Gilbert and David Rosenthal
章节 (30)
- 00:00 · 简介与 2022 年背景
- 主持人们介绍了本期节目的重点,即在 2022 年科技市场崩盘后 NVIDIA 在 AI 革命中扮演的角色。
- 04:35 · NVIDIA 的 1 万亿美元 TAM
- 讨论 NVIDIA 在 2021 年的演示,该演示声称通过占据一个 100 万亿美元行业的 1% 来实现 1 万亿美元的总潜在市场。
- 07:57 · AI 的大爆炸:AlexNet
- 回顾 2012 年,当时 AlexNet 团队使用 NVIDIA GPU 和卷积神经网络赢得了 ImageNet 比赛。
- 12:40 · Google Brain 与 Facebook AI 的双头垄断
- Google 和 Facebook 如何抢购顶尖 AI 人才,以优化社交媒体信息流和广告定向等狭义任务。
- 18:22 · OpenAI 的创立
- Elon Musk、Sam Altman 和 Ilya Sutskever 创立了 OpenAI,以防止大型科技公司垄断通用人工智能 (AGI)。
- 23:20 · Crusoe Cloud 赞助商口播
- Crusoe Cloud 的广告口播,强调其环保且专注于 AI 的云端计算基础设施。
- 25:53 · 早期语言模型的局限性
- 解释早期的 AI 模型如何仅仅是缺乏真正上下文理解的概率性下一个词预测器。
- 30:50 · Transformer 的突破
- Google 2017 年的论文《Attention Is All You Need》引入了 Transformer,实现了语言数据的并行处理。
- 41:10 · OpenAI 的转型与 Microsoft 合作
- OpenAI 转型为利润上限模型,以筹集计算所需的巨额资金,并从 Microsoft 获得了数十亿美元。
- 48:30 · ChatGPT 的发布
- OpenAI 快速发布产品的时间线,最终使 ChatGPT 成为历史上增长最快的消费级产品。
- 1:40:00 · CUDA 护城河与平台战略
- 探讨 NVIDIA 对 CUDA 的长期投资如何创造了巨大的开发者护城河,使其成为一家类似于 Microsoft 的平台公司。
- 1:43:45 · Mellanox 收购与网络技术
- 分析 NVIDIA 战略收购 Mellanox,以解决训练大型 AI 模型时固有的网络带宽瓶颈问题。
- 1:46:37 · 毛利率与市场主导地位
- 探讨 NVIDIA 不断扩大的毛利率(达到 70% 以上),这是由其差异化平台和当前的供应短缺所推动的。
- 1:48:30 · 中国出口管制
- NVIDIA 如何通过为中国市场打造降低了网络速度的 A800 和 H800 芯片来适应美国的出口管制。
- 1:50:45 · Omniverse 与模拟的未来
- NVIDIA Omniverse 平台的潜力,结合 3D 光线追踪和 AI 技术,用于高级模拟和生成式环境。
- 1:53:44 · 员工效率与企业文化
- 强调 NVIDIA 惊人的单员工市值以及 Jensen Huang 独特而高强度的领导风格。
- 1:57:58 · 分析 NVIDIA 的“力量”
- 将“七大力量”框架应用于 NVIDIA,重点关注规模经济、转换成本以及在 TSMC 的垄断资源。
- 2:23:00 · 看跌理由
- 讨论潜在风险,包括 AI 炒作泡沫破裂以及云服务提供商成功将工作负载转移到自研定制芯片上。
- 00:00 · 简介
- 主持人们介绍了本期节目,涵盖了 Nvidia 的近期历史和 AI 热潮。
- 07:50 · AlexNet 的突破
- 讨论 2012 年 ImageNet 竞赛以及使用 GPU 进行深度学习。
- 14:30 · OpenAI 的创立
- OpenAI 是如何作为一家非营利组织成立,以对抗大型科技公司在 AI 领域的主导地位的。
- 26:00 · Transformer 架构
- Google 的《Attention is All You Need》论文及其如何实现并行化。
- 33:00 · 内存墙
- 解释冯·诺依曼瓶颈以及为什么内存带宽对 AI 至关重要。
- 45:00 · OpenAI 与 Microsoft
- OpenAI 转型为上限盈利模式,并与 Microsoft 合作获取算力。
- 61:00 · 收购 Mellanox
- Nvidia 收购 Mellanox 以控制数据中心的网络互连。
- 64:00 · Grace Hopper 与系统
- Nvidia 超越了单纯的 GPU 业务,开始构建完整的超级计算系统。
- 71:00 · DGX Cloud
- Nvidia 将 AI 超级计算作为云服务提供的战略。
- 89:00 · 收入爆发
- 受生成式 AI 需求驱动,Nvidia 实现了史无前例的收入指引和增长。
- 98:00 · 看跌理由与竞争
- 分析来自超大规模云服务商的定制芯片和其他竞争对手的威胁。
- 130:00 · 结论
- 关于 Nvidia 的地位和计算未来的最终思考。
价格数据 (17)
| 时间 | 项目 | 数值 | 背景 |
|---|---|---|---|
| 08:55 | Mechanical Turk image labeling | $2/hour | 支付给 Amazon Mechanical Turk 工人手工标注 ImageNet 数据集中 1400 万张图片的估计时薪。 |
| 10:25 | Two GeForce GTX 580 GPUs | $1,000 | AlexNet 团队为训练其突破性神经网络而购买的消费级硬件的总成本。 |
| 55:50 | Microsoft investment in OpenAI (2019) | $1,000,000,000 | 在 OpenAI 转型为利润上限结构后,Microsoft 对其进行的初始投资。 |
| 57:45 | Microsoft investment in OpenAI (2023) | $10,000,000,000 | Microsoft 随后对 OpenAI 进行的巨额投资,用于资助进一步的计算和模型训练。 |
| 1:43:56 | Mellanox Acquisition | $7 billion | NVIDIA 以现金收购网络公司 Mellanox 所支付的金额。 |
| 1:44:45 | Training Megatron Model | $500,000 | 2019 年训练 83 亿参数 Megatron 模型的估计零售成本。 |
| 1:53:58 | Microsoft Market Cap | $2.5 trillion | 作为员工效率的比较基准被提及。 |
| 1:54:24 | Nvidia Market Cap per Employee | $46 million | 证明 NVIDIA 极高员工效率的计算值。 |
| 08:50 | Mechanical Turk labeling | ~$2/hour | 为 ImageNet 数据集标注图像的成本。 |
| 10:00 | GTX 580 GPU | ~$500 | AlexNet 团队使用的消费级 GPU 的成本。 |
| 45:50 | Microsoft initial investment in OpenAI | $1 Billion | Microsoft 为向 OpenAI 提供算力资源而进行的首笔重大投资。 |
| 47:40 | Microsoft subsequent investment in OpenAI | $10 Billion | Microsoft 对 OpenAI 的大规模后续投资。 |
| 61:00 | Mellanox acquisition | $7 Billion | Nvidia 收购网络公司 Mellanox 所支付的价格。 |
| 75:30 | H100 GPU | ~$40,000 | 单块 Nvidia H100 GPU 的大致市场价格。 |
| 85:30 | DGX Cloud instance | $37,000/month | 在 Nvidia 的 DGX Cloud 上租用 8x A100 实例的定价。 |
| 89:30 | Nvidia Q2 2024 Revenue Guidance | $11 Billion | 标志着 AI 热潮开始的令人震惊的收入指引。 |
| 91:30 | Nvidia Q2 2024 Actual Revenue | $13.5 Billion | 报告的实际收入,超出了本已庞大的指引。 |
内存事实 (5)
- [1:44:24] 大型模型需要跨多台服务器和机架运行,这使得机器间的带宽变得极其重要。
- Multiple servers, multiple racks
- [1:49:52] NVIDIA 通过降低 NVLink 数据传输速度来打造面向中国的 A800 和 H800 芯片,以遵守出口法规。
- NVLink data transfer speeds
- [33:00] 冯·诺依曼瓶颈限制了性能,因为内存访问速度未能跟上处理器速度的步伐。
- N/A
- [59:30] Nvidia H100 GPU 利用高带宽内存(HBM)来提高数据传输速率。
- 80GB HBM per H100
- [60:00] 为了实现高效推理,大型语言模型的全部权重需要装入 GPU 的 VRAM 中。
- N/A
瓶颈观点 (7)
- [42:15] 循环神经网络 (RNNs) 是扩展 AI 的瓶颈。
- 证据: RNNs 顺序处理数据,这意味着必须先知道上一步的输出才能开始下一步,从而无法利用 GPU 庞大的并行处理能力。
- [53:10] 计算成本是实现 AGI 的主要瓶颈。
- 证据: OpenAI 意识到 Transformer 架构在计算能力上的扩展性极好,但作为一家非营利组织,他们无法负担所需的 GPU,迫使他们转型为利润上限模型。
- [1:44:18] 机器间的网络带宽是训练大型 AI 模型的关键瓶颈。
- 证据: NVIDIA 收购 Mellanox 以及随后发布的 Megatron 模型证明了高速互连的必要性。
- [1:49:52] 降低 NVLink 数据传输速度实际上限制了训练大型模型的能力。
- 证据: 这是 NVIDIA 用来为中国市场制造符合出口规定的芯片(A800/H800)的具体机制。
- [33:00] 内存带宽限制了推理速度。
- 证据: 生成 token 需要不断从内存中获取模型权重,这使得内存总线成为限制因素,而不是 FLOPS。
- [61:00] 网络互连限制了训练规模。
- 证据: 训练海量模型需要将工作负载分配到数千个 GPU 上;它们之间的通信速度(通过 InfiniBand/NVLink)决定了整体训练时间。
- [68:00] 先进封装(CoWoS)产能限制了 Nvidia 的芯片供应。
- 证据: TSMC 在 CoWoS(Chip-on-Wafer-on-Substrate)封装方面的有限产能,造成了生产成品 H100 芯片的瓶颈。
预测 (7)
- [07:15, 长期 (未指定)] 互联网和数字世界将继续增长,创造一个完全由 NVIDIA 硬件驱动的全新基础层。
- [1:46:31, 短期到中期] 可能会建设更多由 NVIDIA 完全拥有和运营的数据中心。
- [1:47:34, 短期到中期] NVIDIA 的高毛利率(65%+)在不久的将来不会显著下降。
- [2:06:44, 5 years] 当前的数据中心架构和采购决策将锁定客户至少未来 5 年。
- [2:27:57, 中期到长期 (10 years)] 在充分实现该技术的变革性影响之前,AI 的热度与支出将经历一个“低谷或槽点”。
- [105:00, 未来几年] 超大规模云服务商将把更多内部 AI 工作负载转移到他们自己的定制芯片上,以节省成本。
- [115:00, 长期] Nvidia 的 CUDA 软件护城河将面临来自像 PyTorch 这样抽象掉硬件的更高级别框架的日益增加的压力。
关键技术 (18)
- Large Language Models (LLMs): 在海量文本数据上训练的 AI 模型,用于理解和生成类似人类的语言。
- Transformer: 一种使用自注意力机制并行处理序列数据的神经网络架构,极大地提高了训练效率。
- Convolutional Neural Networks (CNNs): 一类常用于分析视觉图像的深度神经网络。
- CUDA: NVIDIA 的并行计算平台和编程模型,允许开发者使用 GPU 进行通用处理。
- Recurrent Neural Networks (RNNs) / LSTMs: 专为序列数据设计的较旧的神经网络架构,受限于无法并行处理。
- Attention Mechanism: 允许模型衡量序列中不同单词相对于彼此的重要性,无论它们相距多远。
- Positional Encoding: Transformer 中使用的一种技术,用于注入有关序列中单词相对或绝对位置的信息,因为模型是同时处理所有单词的。
- CUDA: NVIDIA 的并行计算平台和编程模型,允许开发者使用 GPU 进行通用处理。
- Megatron: 由 NVIDIA 开发的大型基于 Transformer 的语言模型,用于展示其硬件和网络能力。
- Omniverse: NVIDIA 用于构建和运行自定义 3D 管道以及模拟虚拟世界的平台。
- Ray Tracing: 一种模拟光线物理行为以生成高度逼真 3D 图形的渲染技术。
- NVLink: 由 NVIDIA 开发的高速、直接的 GPU 到 GPU 互连技术。
- PyTorch: 一种广泛用于深度学习应用的开源机器学习框架。
- Transformers: 一种依赖自注意力机制的神经网络架构,允许对序列数据进行高度并行处理。
- High Bandwidth Memory (HBM): 放置在非常靠近 GPU 裸片位置的堆叠内存芯片,以提供海量的内存带宽。
- InfiniBand: 一种用于高性能计算的高吞吐量、低延迟的计算机网络通信标准。
- NVLink: Nvidia 专有的高速互连技术,允许 GPU 之间直接通信。
- CoWoS (Chip-on-Wafer-on-Substrate): TSMC 的一种先进封装技术,用于将多个芯片(如 GPU 和 HBM)集成到单个基板上。
公司提及 (23)
NVIDIA · OpenAI · Microsoft · Google · Facebook (Meta) · DeepMind · Snap · ByteDance (TikTok) · Crusoe Cloud · Tesla · Waymo · Statsig · Cisco · Intel · IBM · Mellanox · Baidu · Apple · AMD · TSMC · Amazon · Meta · Amazon (AWS)
引用 (7)
Attention is all you need. — Google Brain Team (Paper Title) @ 31:05
The AI heard around the world. — Jensen Huang (paraphrased by hosts) @ 47:35
The right analogy for Nvidia also is Microsoft. They make the operating system, they make the programming environment, they make many of the applications. — David @ 1:42:14
I relax all the time. I enjoy relaxing at work because work is relaxing for me. Solving problems is relaxing for me. Achieving something is relaxing for me. — Jensen Huang (quoted by Ben) @ 1:56:11
You build a great company by doing things that other people can’t do. You don’t build a company by fighting other people to do things that everyone can do. — Jensen Huang (quoted by Ben) @ 2:18:17
The more you buy, the more you save. — Jensen Huang (quoted by hosts) @ 78:00
The data center is the new unit of computing. — Ben Gilbert @ 138:00
主题
NVIDIA 向 AI 的转型 · 深度学习的历史 (AlexNet) · OpenAI 的创立与演变 · Transformer 架构的突破 · AI 研究中的计算瓶颈 · Microsoft 与 OpenAI 的战略合作 · NVIDIA 的平台战略 · CUDA 开发者生态系统 · 数据中心网络 (Mellanox) · 毛利率扩张 · 地缘政治与出口管制 · Omniverse 与 3D 模拟 · 企业文化与效率 · 竞争优势(七大力量) · AI 市场动态与看跌理由 · Nvidia 向数据中心公司的转型 · Transformer 架构的影响 · OpenAI 的历史与 Microsoft 的合作 · 内存带宽与互连瓶颈 · 超大规模云服务商的竞争与定制芯片
要点
- NVIDIA 目前的统治地位是十年来对并行计算 (CUDA) 的押注与深度学习的计算需求完美交汇的结果。
- Transformer 架构是关键的突破口,它允许 AI 训练在数千个 GPU 上并行进行,打破了旧模型的顺序处理瓶颈。
- OpenAI 从非营利组织向利润上限公司的转型是一种结构上的必然,这是由扩展 Transformer 模型所需的巨大计算成本所驱动的。
- NVIDIA 的主导地位建立在对 CUDA 软件平台长达十年的投资之上,这使他们成为一家平台公司,而不仅仅是芯片设计商。
- 收购 Mellanox 对 NVIDIA 解决跨多台服务器训练海量 AI 模型所需的网络瓶颈至关重要。
- NVIDIA 享有前所未有的毛利率(70%+)和员工效率,反映了其强大的市场地位和定价权。
- 尽管面临美国出口管制,NVIDIA 还是通过制造“阉割版”芯片(A800/H800)成功适应了这一局面,这些芯片在中国依然需求旺盛。
- 高昂的转换成本、软件开发的规模经济以及在 TSMC 获得的产能保障,进一步巩固了 NVIDIA 的竞争护城河。
- Nvidia 目前的主导地位是对 CUDA 和数据中心架构长期押注的结果,而不仅仅是因为突如其来的 AI 热潮。
- AI 的瓶颈已经从纯算力(FLOPS)转移到了内存带宽和网络。
- 尽管 Nvidia 目前在 AI 训练硬件上几乎处于垄断地位,但超大规模云服务商有强烈的动机去开发具有竞争力的定制芯片。