Dylan Patel: Single biggest bottleneck to scaling AI compute

类别: 定价与经济 · 时长: 150 分钟 · ▶ 观看

讲者: Dwarkesh Patel · Dylan Patel · Dylan Patel, CEO of SemiAnalysis · 穿浅绿色夹克的男子 (SemiAnalysis 的 Dylan Patel) · 穿白色毛衣的男子

Switch language → English

章节 (42)

  • 00:00:00 · 开场与闲聊
    • 主持人和嘉宾在开始关于半导体的主要讨论前互相开玩笑。
  • 00:00:18 · AI 算力支出的规模
    • 主持人就大型科技公司的巨额资本支出和 AI 实验室的融资与算力成本之间的关系提出疑问。
  • 00:01:41 · 理解超大规模云厂商的资本支出
    • 嘉宾解释说,庞大的资本支出数据包括数据中心和电力的长期建设成本,而不仅仅是眼前的计算硬件。
  • 00:02:55 · Anthropic 的算力需求与扩展挑战
    • 嘉宾详细说明了 Anthropic 收入的快速增长如何迫使他们在今年进行大规模、数吉瓦级别的算力产能扩张。
  • 00:04:03 · 在紧要关头获取算力
    • 主持人询问像 Anthropic 这样的公司如果在没有计划的情况下如何获取所需的算力产能,从而引发了对他们保守战略的讨论。
  • 00:04:48 · 保守与激进算力战略的后果
    • 嘉宾将 Anthropic 的保守方法与 OpenAI 早期激进的交易策略进行了对比,后者让 OpenAI 获得了更多的算力资源。
  • 00:06:18 · GPU 折旧的经济学
    • 主持人对传统的 GPU 折旧周期提出质疑,认为对 AI 的巨大需求可能会让旧 GPU 在更长时间内保持价值。
  • 00:08:52 · 看待 GPU 价值的两个视角:TCO 与效用
    • 嘉宾解释说,可以通过侧重成本的 TCO 模型或侧重效用的模型来看待 GPU 的价值,在效用模型中,价值与它能运行的日益强大的模型挂钩。
  • 00:12:51 · 终极瓶颈:半导体供应链
    • 主持人询问关于 5 年期的瓶颈,嘉宾指出核心半导体供应链,特别是 ASML 的 EUV 设备,是最终的制约因素。
  • 00:14:51 · 为什么 ASML 不能制造更多设备?
    • 嘉宾解释了 EUV 光刻机各个组件的极端复杂性和漫长的交货期,这阻碍了产量的快速扩张。
  • 00:18:00 · Dario 的困境:关于算力的矛盾陈述
    • 主持人指出了 Dario Amodei 乐观的 AGI 时间表与 Anthropic 保守的算力获取战略之间的矛盾。
  • 00:18:52 · 尽早承诺算力的价值
    • 嘉宾解释说,随着模型变得更加强大,GPU 的价值也会增加,这让那些尽早签订长期算力合同的人获得了更好的利润率回报。
  • 00:20:34 · AI 中的阿尔钦-艾伦效应
    • 主持人运用一项经济学原理提出,随着算力固定成本的上升,用户将更愿意为最高质量的模型支付溢价。
  • 00:23:13 · 增量算力之争
    • 嘉宾讨论了争夺增量算力产能的成本为何最高,以及不同参与者在这场竞争中的定位。
  • 00:25:52 · TSMC 的分配战略
    • 嘉宾解释了为什么 TSMC 可能更倾向于将产能分配给像 CPU 这样更稳定的市场,而不是波动大但高增长的 AI 芯片市场。
  • 00:31:23 · Google 与 Anthropic 的 TPU 交易
    • 嘉宾介绍了 Anthropic 如何在 Google 充分意识到自身内部需求之前,利用信息不对称获得了大量 Google 的 TPU 产能。
  • 00:34:34 · AI 算力瓶颈的转移
    • 主持人和嘉宾讨论了扩展 AI 算力的主要瓶颈如何从电力和数据中心转移回核心半导体供应链。
  • 00:37:03 · 预测未来算力产能
    • 嘉宾详细计算了 ASML 有限的 EUV 设备产量如何为到 2030 年可部署的 AI 算力总量设定了绝对上限。
  • 00:43:20 · EUV 设备长达十年的使用寿命
    • 主持人对同一批核心制造机器将使用长达十年感到惊讶,嘉宾解释了其中涉及的持续升级和复杂性。
  • 50:00 · 光刻机的奇迹
    • 演讲者详细介绍了 ASML 光刻设备令人难以置信的复杂性和精度,其组件以 9G 的加速度移动,并具有纳米级的精度。
  • 51:17 · 半导体供应链
    • 讨论涵盖了庞大而错综复杂的半导体制造供应链,涉及 Zeiss 和 Cymer 等数千家专业供应商。
  • 52:23 · AI 算力中的牛鞭效应
    • 演讲者解释了由于供应链下游的牛鞭效应,AI 算力需求为何无法得到满足,供应链的每一层相对于最终需求都在缩减生产。
  • 54:40 · 赞助商:Labelbox 与 EchoChain
    • 主持人播报了 Labelbox 的赞助片段,重点介绍了他们的 EchoChain 管道,用于诊断和修复由中断引起的语音模型故障。
  • 55:43 · 旧技术能解决瓶颈吗?
    • 主持人质疑是否可以重新利用使用 DUV 的旧 7nm 工艺节点来缓解 EUV 瓶颈,类似于绕过电网限制的方式。
  • 57:55 · 为什么旧技术不是简单的解决方案
    • 嘉宾认为,仅仅使用旧节点并不是解决方案,因为现代芯片是针对特定的数值和系统级性能进行协同设计的,这使得直接比较具有误导性。
  • 1:00:41 · 芯片封装的未来
    • 对话转向先进封装,如多裸片芯片(B200、Rubin)和晶圆级集成(Tesla 的 Dojo),作为提高封装内性能的方法。
  • 1:02:50 · 中国的半导体雄心
    • 演讲者讨论了中国发展本土半导体供应链的时间表,以及他们的规模最终是否能克服西方的技术领先优势。
  • 1:08:07 · 内存短缺与消费者影响
    • 嘉宾预测严重的内存短缺将增加智能手机和 PC 等消费电子产品的成本,可能会导致公众对 AI 的强烈抵触。
  • 1:16:01 · HBM vs. DDR:带宽瓶颈
    • 技术性解释了为什么商用 DDR 内存无法取代 HBM 用于高性能 AI,原因是每个芯片边缘面积的内存带宽存在数量级的差异。
  • 1:28:45 · 晶圆厂瓶颈
    • 增加内存产量的主要限制是缺乏物理晶圆厂空间,因为新建晶圆厂需要数年时间,而且对现有晶圆厂进行设备改造非常复杂。
  • 1:33:26 · Elon Musk 的 Terafab 与颠覆性技术
    • 演讲者推测 Elon Musk 是否能快速建造一个巨大的“Terafab”,并讨论了用简单的颠覆性技术取代当前复杂光刻工艺的可能性很低。
  • 1:40:00 · 真正的瓶颈:设备制造商,而非代工厂
    • 嘉宾认为,AI 计算增长的最终限制不是像 TSMC 这样的代工厂,而是像 ASML 这样的设备制造商以及为它们提供支持的材料供应商。
  • 1:40:30 · 能源涡轮机比喻与套利
    • 将买断能源涡轮机产能与在 EUV 设备供应链中套利的潜力进行了类比,尽管认为 ASML 不太可能允许这种情况发生。
  • 1:42:34 · 发电:一个可解决的问题
    • 嘉宾声称,尽管发电是一个挑战,但它并不是 AI 的主要瓶颈,并列举了多样化的能源和电网的闲置容量作为依据。
  • 1:50:50 · 劳动力限制与模块化
    • 数据中心建设的劳动力被认为是一个重大限制,这将通过增加模块化和基于工厂的集成来解决。
  • 1:54:42 · 反对太空数据中心的理由
    • 对太空数据中心的想法提出了批评,原因不在于电力,而在于在芯片受限的世界中面临的极端物流挑战、部署延迟和不可靠性。
  • 2:00:20 · Scale-Up 域:Nvidia vs. Google vs. Amazon
    • 比较了 Nvidia、Google (TPU) 和 Amazon (Trainium) 的网络拓扑和 scale-up 域大小,突出了不同的架构权衡。
  • 2:08:58 · 为什么 AI 模型参数扩展放缓
    • 嘉宾推论,模型参数扩展放缓是由于在计算受限的环境中,更小、迭代更快的模型能提供更多价值的反馈循环所致。
  • 2:14:06 · Leopold Aschenbrenner 和 SemiAnalysis 的作用
    • 主持人和嘉宾讨论了一些投资者(如 Leopold)如何利用深度的供应链分析来成功下注,以及 SemiAnalysis 的数据通常被认为很激进但最终证明是正确的。
  • 2:18:30 · TSMC、Apple 与节点产能的未来
    • 嘉宾预测,AI 公司将越来越多地主导 TSMC 的先进制程产能,随着时间的推移,Apple 将成为一个不那么重要的客户。
  • 2:22:00 · Huawei 的潜力
    • 如果不是因为制裁,Huawei 的垂直整合和人才储备本可以使他们成为 AI 加速器领域的领导者,甚至可能超越 Nvidia。
  • 2:24:32 · 机器人的未来:集中式 vs. 端侧智能
    • 讨论认为,为了提高效率和能力,未来的机器人将把大部分“思考”卸载到强大的集中式云端模型上,而不是仅仅依赖端侧计算。

价格数据 (18)

时间 项目 数值 背景
00:00:28 Big 4 (Amazon, Meta, Google, Microsoft) combined capex forecast for the year $600 billion 主持人使用这个数字来构建当前 AI 基础设施支出的巨大规模。
00:00:55 OpenAI fundraising target $110 billion 作为 AI 实验室正在筹集的巨额资金的一部分被提及。
00:00:57 Anthropic fundraising target $30 billion 作为 AI 实验室正在筹集的巨额资金的一部分被提及。
00:01:15 Yearly rental price for one gigawatt of compute $10-13 billion 用于估算融资和资本支出数据所隐含的算力产能。
00:01:50 Total semiconductor supply chain spending On the order of $1 trillion 嘉宾将支出的范围扩大到了超大规模云厂商之外。
00:02:19 Google’s capex $180 billion 用作说明资本支出如何用于未来基础设施(如 2028-29 年的涡轮机定金)的例子。
00:03:39 Anthropic’s implied compute spend for inference $40 billion 根据其预计的收入增长和毛利率计算得出。
00:07:45 H100 rental price for a 2-3 year deal $2.40 per hour 实验室为确保算力而愿意支付高昂价格的一个例子。
00:08:48 Cost to deploy an H100 over 5 years $1.40 per hour 云提供商的基本所有权成本。
00:12:22 Selling price of an ASML EUV tool $300-400 million 突显了最关键制造设备的成本。
1:23:11 Big Tech Capex on Memory (2026) 30% 嘉宾表示,2026 年大型科技公司 30% 的资本支出将用于内存。
1:24:12 iPhone Memory Cost (Past) $50 iPhone 中 12GB 内存的成本过去大约是 $50(每 GB $3-4)。
1:24:23 iPhone Memory Cost (Present) $150 随着 DRAM 价格涨至三倍,达到每 GB $12,12GB 内存的成本现在约为 $150。
1:24:26 iPhone BOM Increase $100 内存成本的增加导致 iPhone 的物料清单 (BOM) 增加了 $100。
1:24:51 iPhone Consumer Price Increase $250 内存 BOM 增加 $150 可能会转化为消费者最终价格增加 $250。
1:48:15 Combined Cycle Gas Turbine CapEx $1500 per kilowatt 建设联合循环燃气轮机发电厂的资本支出。
1:48:27 Alternative Power Generation CapEx Up to $3500 per kilowatt 嘉宾指出,即使替代电源的价格是联合循环的两倍,对 GPU 总成本的影响也微乎其微。
1:48:41 Nvidia Hopper GPU Cost $1.40 per hour Hopper GPU 的大致总拥有成本 (TCO),用于说明即使电价翻倍,也只会使该成本增加约 $0.10。

内存事实 (10)

  • [00:16:21] 一块 H100 GPU 拥有 80 GB 的内存。
    • 80 GB
  • [00:16:23] 据估计,人脑拥有 PB 级的记忆容量。
    • Petabytes
  • [1:16:10] HBM 每晶圆面积的比特数比制造它的 DRAM 少 3-4 倍。
    • 3-4x
  • [1:21:07] 一个 HBM4 堆栈具有 2048 位宽的接口。
    • 2048 bits
  • [1:21:50] 一个 DDR5 通道具有 64 或 128 位宽的接口。
    • 64-128 bits
  • [1:21:41] 一个 HBM4 堆栈提供大约每秒 2.5 Terabytes 的带宽。
    • 2.5 TB/s
  • [1:22:16] 一个 DDR5 通道提供大约每秒 128 Gigabytes 的带宽。
    • 128 GB/s
  • [2:09:28] Nvidia 的 scale-up 域在历史上内存容量有限,这限制了能够高效训练的模型大小。
  • [2:10:00] Nvidia NVL72 scale-up 系统的总内存容量为 20 TB。
    • 20 TB
  • [2:10:10] Google 的 TPU pods 内存容量高达数百 TB。
    • Hundreds of TB

瓶颈观点 (10)

  • [00:34:35] 扩展 AI 算力的瓶颈正在从电力和数据中心转移到半导体供应链。
    • 证据: 嘉宾认为,虽然电力和数据中心是以前的瓶颈,但现在交货期最长的项目是晶圆厂以及配备它们的设备,这使它们成为新的制约因素。
  • [00:34:51] AI 算力的最终瓶颈是 ASML 生产的 EUV 光刻机。
    • 证据: ASML 是这些关键机器的唯一生产商。他们的产能有限(例如,今年约 70 台,到 2030 年增至约 100 台),这为全球可生产的先进逻辑晶圆总量设定了硬性上限。
  • [00:46:15] ASML 无法轻易或快速地扩大其 EUV 设备的产能。
    • 证据: 嘉宾解释说,ASML 自身在光源(Cymer)、光学元件(Zeiss)和工作台等组件的供应链极其复杂,且交货期非常长,这阻碍了快速的“不顾一切”式的扩张。
  • [1:28:45] 增加内存产量的主要瓶颈是缺乏物理晶圆厂空间。
    • 证据: 内存供应商在 2023 年没有盈利,因此没有建造新的晶圆厂,而新晶圆厂需要 2 年以上才能投产。没有地方放置新设备。
  • [1:16:30] 内存带宽(而非容量)是 AI 性能的关键限制因素,这使得商用 DRAM 成为 HBM 的糟糕替代品。
    • 证据: 对于相同的芯片边缘面积,HBM 提供了超过一个数量级的带宽(TB/s vs GB/s),这对于向计算单元 (FLOPS) 提供权重和 KV 缓存数据至关重要。
  • [1:33:46] 开发工艺技术本身是比建造物理晶圆厂更难解决的瓶颈。
    • 证据: 工艺技术依赖于庞大、累积的知识储备以及整合高度复杂的供应链,这就是为什么只有 TSMC、Intel 和 Samsung 等少数公司能在尖端领域做到这一点。
  • [1:40:12] AI 计算的最终瓶颈不是代工厂,而是设备制造商(如 ASML)和材料供应商。
    • 证据: 即使 Intel 和 Samsung 建立了更多代工厂,整个行业仍依赖极少数公司提供关键制造设备,而这些设备的产能无法快速扩大。
  • [1:42:36] 发电并不是 AI 计算的最终瓶颈。
    • 证据: 嘉宾认为有许多发电方式,且现有电网有大量闲置容量。与半导体相比,发电的供应链更简单、更多样化。
  • [1:51:37] 数据中心建设的劳动力是一个巨大的限制。
    • 证据: 所需的电工和建筑工人数量庞大,但这将通过转向更模块化、工厂制造的数据中心组件来缓解。
  • [2:03:07] 芯片是 AI 进步的最大瓶颈。
    • 证据: 整个讨论的核心观点是,制造先进制程芯片的能力是最受限的资源,而所有其他决策(如数据中心选址)都次于如何最大化这些稀缺芯片的效用。

预测 (13)

  • [00:03:58, 2024年底] Anthropic 将需要在年底前拥有远超 5 吉瓦的算力。
  • [00:11:37, 2030] 全球生态系统将拥有约 700 台 EUV 设备。
  • [00:11:40, 2030] 可用的 EUV 总产能将支持生产价值约 200 吉瓦的 AI 芯片。
  • [00:12:27, 本年代末] ASML 明年将生产 80 台 EUV 设备,并增长到每年略多于 100 台。
  • [1:08:10, 短期 (next 1-2 years)] 内存短缺将持续,价格将继续上涨,对消费电子市场产生负面影响。
  • [1:25:31, 明年] 智能手机的年销量可能会从 11 亿部降至 5-6 亿部。
  • [1:02:50, 2030] 到 2030 年,中国可能会拥有完全本土化的 DUV 供应链和可用的 EUV 设备,但无法达到大规模量产的规模。
  • [1:11:50, 2030-2035] 如果 AI 发展时间线很快,美国/西方将凭借其目前的领先优势获胜。如果时间线很长(例如 2035 年),中国可能会凭借其扩展垂直供应链的能力获胜。
  • [1:43:45, 本年代末 (约 2030 年)] 到本世纪末(2030年左右),AI 数据中心将消耗 200 吉瓦的关键 IT 电力。
  • [1:47:16, 2028] 到 2028 年,数据中心将消耗美国电网 10% 的电力。
  • [1:49:51, 本年代末 (约 2030 年)] 到本年代末,大约一半的新增数据中心产能将建在“电表后”(拥有自己专用的发电设施)。
  • [2:03:44, 2035+] 太空数据中心可能是有意义的,但要等到 2035 年或更晚,一旦芯片不再是主要瓶颈。
  • [2:21:41, 未来几年] 随着 AI 需求的增长,Apple 将逐渐成为 TSMC 先进制程节点中规模更小、相关性更低的客户。

关键技术 (17)

  • Semiconductors: 执行计算的基础电子元件(芯片)。
  • GPUs (H100, Blackwell, Rubin): 来自 Nvidia 的专用处理器,是训练和运行大型 AI 模型的主要硬件。
  • EUV (Extreme Ultraviolet) Lithography: 一种高度先进的制造工艺,使用 EUV 光在硅晶圆上刻画最小的特征,从而能够制造出尖端芯片。
  • TPUs (Tensor Processing Units): Google 定制设计的 AI 加速器芯片,是 GPU 的替代品。
  • DRAM (Dynamic Random-Access Memory): 一种对 AI 芯片至关重要的内存,用于在处理过程中存储模型权重和中间计算结果。
  • CoWoS (Chip-on-Wafer-on-Substrate): 来自 TSMC 的一种先进封装技术,用于将多个芯片(如 GPU 和 HBM 内存)集成到一个强大的封装中。
  • EUV Lithography: 极紫外光刻是一种高度复杂的工艺,使用 13.5nm 的光在半导体晶圆上绘制最小的特征。它是尖端芯片制造的关键瓶颈。
  • HBM (High Bandwidth Memory): 一种堆叠式 DRAM,提供极高的内存带宽,对现代 AI 加速器至关重要。它很昂贵,并且每比特占用的晶圆面积比标准 DRAM 更多。
  • DDR (Double Data Rate) SDRAM: 用于 PC 和服务器的商用内存。与 HBM 相比,它提供了高得多的每晶圆容量,但带宽却低得多。
  • Advanced Packaging (CoWoS, Wafer-Scale): 将多个小芯片(裸片)集成到单个封装中的技术,通过实现它们之间极高速的通信来提高性能,从而绕过较慢的封装外互连。
  • EUV (Extreme Ultraviolet) Lithography: 制造最先进半导体芯片的关键技术,ASML 是该设备的唯一供应商。
  • Gas Turbines (Combined Cycle, Industrial, Aeroderivative): 用于为电网以及越来越多专用数据中心产生大量电力的发动机。
  • Reciprocating Engines: 发电涡轮机的替代品,通常用于船舶和卡车,可被重新用于数据中心。
  • Fuel Cells: 一种将化学能转化为电能的电化学电池,被提及作为数据中心的电源(例如 Bloom Energy)。
  • Scale-Up Domain: 通过高带宽、低延迟网络(例如 NVLink、ICI)连接的芯片集群(GPU/TPU),使它们能够作为一个强大的单一计算机运行,用于训练大型 AI 模型。
  • Torus Network Topology: Google TPU 使用的一种网络架构,其中每个芯片直接连接到少数几个相邻节点(例如 6 个),而与远处芯片的通信必须通过中间节点跳转。
  • All-to-All Network Topology: 一种网络架构,如 Nvidia 的 NVL72,其中 scale-up 域中的每个芯片都可以以最大带宽与所有其他芯片直接通信。

公司提及 (45)

RØDE · SemiAnalysis · Amazon · Meta · Google · Microsoft · OpenAI · Anthropic · CoreWeave · Oracle · SoftBank Energy · Nscale · TSMC · Nvidia · ASML · SK Hynix · Samsung · Broadcom · Apple · AMD · Cymer · Carl Zeiss · Zeiss · Labelbox · Kuaishou (Kimi) · 01.AI (Deepseek) · Tesla · Intel · Xiaomi · Oppo · Micron · Hynix · Applied Materials · Lam Research · Siemens · Mitsubishi · GE Vernova · Boom Supersonic · Crusoe · Cummins · Nebius · Bloom Energy · SpaceX · Starlink · Huawei

引用 (15)

No sloppy seconds for Dwarkesh. — Host @ 00:00:11

I’m not going to go crazy on compute, because if my revenue inflects at a different rate, at a different point, I don’t want to go bankrupt. — Guest (paraphrasing Dario Amodei) @ 00:04:25

Let’s just sign these crazy fucking deals, right? — Guest (characterizing OpenAI’s strategy) @ 00:04:40

An H100 is worth more today than it was three years ago. — Host @ 00:09:50

Name me a petabyte of ones and zeros, bro. — Guest @ 00:16:26

There is a bit of a meme that they are… they don’t… they have problems with commitment issues and they’re like sort of polyamorous. — Guest @ 00:19:27

If anything is messed up, the yield goes to zero, right? Because this is such a finely tuned system. — Dylan Patel @ 50:55

You go down the supply chain, everyone’s doing minus one, and in some cases they’re doing like divided by two, right? Because they just don’t, they’re not AGI pilled. — Dylan Patel @ 53:31

The metric that you actually care about is bandwidth per wafer, not bits per wafer. — Dylan Patel @ 1:19:27

Today you already see all the memes like on PC subreddits and PC like Twitter, gaming PC Twitter is like, cat dancing videos and it’s like, this is why memory prices has doubled and you can’t get a new gaming GPU. — Dylan Patel @ 1:27:17

主题

AI 算力扩展 · 半导体供应链 · 超大规模云厂商资本支出 · AI 实验室融资与经济学 · GPU 价值与折旧 · 未来算力瓶颈 · EUV 光刻与 ASML · 长期算力合同 · 半导体制造复杂性 · AI 算力供应链瓶颈 · EUV 光刻 · 内存短缺 (HBM vs. DDR) · AI 对消费电子的经济影响 · 中美半导体竞赛 · 先进芯片封装 · 晶圆厂建设与设备 · AI 基础设施 · 半导体供应链 · AI 的瓶颈 · TSMC · ASML · 数据中心发电 · 数据中心建设 · 劳动力短缺 · 太空计算 · AI 芯片架构 · Nvidia vs Google vs Amazon · 网络拓扑 · AI 模型扩展 · 技术地缘政治

要点

  • 对 AI 算力的需求正在推动整个供应链每年高达万亿美元的支出狂潮,其中很大一部分资本支出是为未来基础设施支付的预付款。
  • 早期积极锁定长期算力协议的 AI 实验室(如 OpenAI)相比于较为保守的实验室(如 Anthropic),在利润率和产能上拥有显著优势。
  • GPU 的价值越来越取决于它所能运行的模型的经济效用,而不仅仅是其硬件折旧时间表。随着模型变得越来越有价值,旧硬件的价值实际上可能会增加。
  • 虽然目前 AI 扩展的瓶颈一直是电力和封装(CoWoS)等方面,但最终的长期瓶颈是核心半导体制造设备的产能,特别是 ASML 的 EUV 设备。
  • ASML 的 EUV 设备产量极其有限,且产能扩张需要数年的交货期,这为到 2030 年全球可部署的尖端 AI 算力总量设定了硬性上限(估计总计约 200 GW)。
  • 半导体供应链,特别是对于 EUV 设备和 HBM 等尖端组件而言,极其复杂,交货周期长且存在多个瓶颈。
  • 对 AI 算力的需求巨大且不断增长,而当前的供应链对此准备不足,造成了“牛鞭效应”,导致生产远远落后于需求。
  • AI 热潮正在引发“内存短缺”,推高了 DRAM 和 NAND 的价格。这将使智能手机和 PC 等消费电子产品变得更昂贵或质量下降,可能会引发公众对 AI 的强烈抵触。
  • 仅仅使用旧工艺节点或商用内存 (DDR) 并不是解决供应短缺的可行方案,因为现代 AI 性能严重依赖于系统级协同设计(包括内存带宽),而 HBM 对此至关重要。
  • 未来 2-3 年增加内存供应的主要瓶颈是物理晶圆厂空间的缺乏,因为新建晶圆厂需要数年时间,而且在上次市场低迷期间并未投建。
  • 争夺 AI 主导地位的竞赛具有时间因素:较短的 AI 发展时间线有利于美国/西方,因为他们目前处于技术领先地位;而较长的时间线可能会让中国利用其大规模建立垂直整合供应链的能力。
  • 从长远来看,AI 计算的主要瓶颈不是代工产能(TSMC),而是整个行业所依赖的专业设备制造商(ASML)和材料供应商。
  • 虽然电力和数据中心建设带来了挑战,但它们是可以通过工程和物流解决的问题,与半导体相比,其供应链更加多样化和灵活。它们并不是最终的瓶颈。
  • 将数据中心建在太空以解决电力问题的想法是有缺陷的,因为它忽略了主要限制因素:芯片的稀缺性。漫长的部署时间以及无法在太空中维护硬件,使其在经济上不可行。
  • 在 AI 开发中,训练更大的模型与在较小模型上更快地迭代之间存在着根本的权衡。在计算受限的世界中,在较小模型上进行更快的强化学习(RL)和研究所带来的反馈循环通常能提供更多价值。
  • 不同的 AI 硬件公司(Nvidia、Google、Amazon)在它们的 scale-up 域中做出了不同的架构权衡(例如,all-to-all 与 torus 拓扑),这影响了它们能够最高效运行的模型类型。
  • 随着 AI 成为半导体需求的主要驱动力,像 Apple 这样的传统客户的影响力将会下降,而 AI 公司将越来越多地主导 TSMC 等代工厂的路线图和产能分配。