GTC Spring 2022 Keynote
类别: 主 Keynote · 年份: 2022 · ▶ 观看
讲者: Jensen Huang - NVIDIA CEO
章节 (11)
- 00:00 · 开场与 I AM AI 视频
- 开场视频展示了 AI 在各个行业的影响,随后是 Jensen 的开场介绍。
- 05:25 · 百万倍计算加速
- Jensen 探讨了加速计算和 AI 如何在过去十年中实现了百万倍的速度提升。
- 09:10 · 气候科学与 FourCastNet
- 介绍 FourCastNet,这是一个用于预测极端天气事件的物理信息 AI 模型。
- 12:18 · NVIDIA AI 软件栈
- 概述 NVIDIA 的 AI 软件,包括 Triton、Riva、Maxine、Merlin 和 NeMo Megatron。
- 27:08 · Hopper 架构与 H100 GPU
- 发布全新的 Hopper 架构、H100 GPU 及其突破性功能(如 Transformer Engine)。
- 32:36 · HGX、DGX 与 EOS 超级计算机
- 宣布围绕 H100 构建的系统,并扩展至庞大的 EOS AI 超级计算机。
- 40:37 · Grace CPU Superchip 与 NVLink C2C
- 介绍用于 AI 工厂的 Grace CPU Superchip 以及 NVLink Chip-to-Chip 互连技术。
- 44:22 · 加速计算库
- SDK 更新,包括 RAPIDS、cuOPT、Morpheus、cuQuantum、Aerial、Sionna、Modulus 和 MONAI。
- 51:11 · Omniverse 与 OVX
- 展示用于数字孪生的 Omniverse、全新的 OVX 服务器以及用于协作的 Omniverse Cloud。
- 01:03:39 · 机器人技术:Isaac 与 Metropolis
- Isaac 机器人平台、用于追踪的 Metropolis 以及用于医疗设备的 Clara Holoscan 的更新。
- 01:08:14 · 自动驾驶汽车:DRIVE
- 宣布 DRIVE Hyperion 9、DRIVE Map,并展示 DRIVE Sim 的功能。
产品发布 (19)
- [18:35] Riva 2.0
- 语音 AI SDK
- specs: 支持 7 种语言的语音识别,具有男女声的神经文本转语音,使用 TAO 进行自定义微调。
- availability: 全面上市 (GA)
- [23:18] Merlin 1.0
- 超大规模推荐系统 AI 框架
- specs: 端到端流水线,包括特征转换、检索和排序模型。
- availability: 全面上市 (GA)
- [23:45] NeMo Megatron
- 大型语言模型训练 AI 框架
- specs: 支持高达数万亿参数的模型、自动化数据整理和分布式训练。
- availability: 未明确说明
- [27:08] NVIDIA H100 GPU
- 基于 Hopper 架构的下一代数据中心 GPU
- specs: 800 亿个晶体管,TSMC 4N 工艺,4.9 TB/s 带宽,PCIe Gen5,Transformer Engine,DPX 指令。
- availability: 未明确说明
- [33:00] HGX H100
- 配备 8 个 H100 GPU 的服务器主板
- specs: 32 PFLOPS FP8,16 PFLOPS FP16,通过 SHARP 实现 3.6 TFLOPS 的网络内计算。
- availability: 未明确说明
- [34:00] DGX H100
- AI 计算系统
- specs: 8 个 H100 GPU,32 PFLOPS AI 性能,640 GB HBM3 内存,24 TB/s 内存带宽。
- availability: 未明确说明
- [34:46] NVLink Switch System
- 用于连接多个 DGX 节点的外部交换机
- specs: 最多连接 32 个 DGX 节点,使 256 个 GPU 作为一个整体运行。
- availability: 未明确说明
- [36:58] EOS Supercomputer
- NVIDIA 内部 AI 超级计算机
- specs: 18 个 DGX Pod,4608 个 H100 GPU,18.4 EFLOPS AI 性能,275 PFLOPS FP64。
- availability: 几个月内上线
- [39:00] H100 CNX
- 融合 H100 GPU 与 ConnectX-7 SmartNIC
- specs: 以 50 GB/s 的速度从网络直接 DMA 到 H100,绕过 CPU 瓶颈。
- availability: 未明确说明
- [40:37] Grace CPU Superchip
- 专为 AI 和 HPC 设计的数据中心 CPU
- specs: 144 个 CPU 核心,1 TB/s 内存带宽,SPECrate2017_int_base 超过 740,功耗 500W。
- availability: 按计划于明年 (2023) 发货
- [42:40] NVLink Chip-to-Chip (C2C)
- 用于定制芯片集成的高速互连技术
- specs: 900 GB/s 带宽,超高能效,低延迟。
- availability: 向客户和合作伙伴提供
- [45:56] cuOPT
- 用于路线优化的 AI 加速求解器
- specs: 多智能体、多约束的路线规划优化。
- availability: 未明确说明
- [52:59] NVIDIA OVX Server
- 专为 Omniverse 数字孪生设计的计算系统
- specs: 8 个 A40 GPU,3 个 ConnectX-6 网卡,2 个 Intel Ice Lake CPU,1 TB 系统内存。
- availability: 现已通过顶级计算机制造商供货
- [56:58] Spectrum-4
- 400G 以太网交换机
- specs: 1000 亿个晶体管,51.2 Tbps 带宽,128 个 400GbE 端口。
- availability: 将于 Q3 提供样品
- [58:43] Omniverse Cloud
- 用于 Omniverse 协作的云端套件
- specs: 无需本地 RTX 硬件,即可在任何地方进行一键式设计协作。
- availability: 未明确说明
- [01:04:00] Isaac Nova Orin
- 参考 AMR(自主移动机器人)架构
- specs: 由 Jetson AGX Orin 驱动,包含 2 个摄像头、2 个激光雷达、8 个超声波传感器、4 个鱼眼摄像头。
- availability: 将于 Q2 供货
- [01:07:49] Clara Holoscan MGX
- 用于机器人医疗设备的医疗级平台
- specs: 按照 IEC 62304 标准设计,由 Orin 和 CX7 驱动。
- availability: 今日开放抢先体验,5 月全面上市 (GA),Q1 2023 达到医疗级就绪状态
- [01:08:55] DRIVE Hyperion 9
- 开放式参考自动驾驶平台
- specs: 由双 Atlan SoC 驱动,14 个摄像头、9 个雷达、3 个激光雷达、20 个超声波传感器。
- availability: 用于 2026 年起发货的汽车
- [01:09:22] DRIVE Map
- 用于自动驾驶汽车的多模态地图引擎
- specs: 包含摄像头、雷达和激光雷达层;由真实数据和众包数据自动生成。
- availability: 预计到 2024 年底完成 500,000 公里的地图绘制
数据 (12)
| 时间 | 指标 | 数值 | 背景 |
|---|---|---|---|
| 06:00 | 加速比 | 1,000,000x | 过去十年中,由于加速计算和机器学习带来的计算性能提升。 |
| 07:28 | 开发者数量 | 3,000,000 | NVIDIA 生态系统中的开发者数量。 |
| 10:20 | 加速比 | 4 到 5 个数量级 | FourCastNet 预测天气的速度比经典数值模型快多少。 |
| 27:30 | 晶体管数量 | 800 亿 | H100 GPU 中的晶体管数量。 |
| 28:20 | 性能 | 4,000 TFLOPS | H100 GPU 的 FP8 性能。 |
| 31:42 | 加速比 | 40x | 在 Hopper 上使用全新 DPX 指令的动态规划算法加速比。 |
| 34:00 | 性能 | 32 PFLOPS | 单台 DGX H100 系统的 AI 性能。 |
| 36:58 | 性能 | 18.4 EFLOPS | EOS 超级计算机的 AI 性能。 |
| 38:08 | 加速比 | 30x | 对于大型语言模型,H100 相比 A100 的推理吞吐量提升。 |
| 41:26 | 核心数 | 144 | Grace CPU Superchip 中的 CPU 核心数量。 |
| 41:26 | 性能 | 740 | Grace CPU Superchip 的预估 SPECrate2017_int_base 分数。 |
| 56:58 | 带宽 | 51.2 Tbps | Spectrum-4 交换机的总带宽。 |
Benchmark 主张 (4)
- [29:12] AI 处理 (FP8 对比 FP16): 6x
- vs: Ampere A100
- gain: 在 AI 处理方面,Hopper H100 提供了 Ampere A100 6 倍的性能。
- [38:08] 大型语言模型推理 (Megatron 530B): 30x
- vs: Ampere A100
- gain: 在 1 秒响应延迟下,H100 提供的吞吐量比 A100 高 30 倍。
- [41:26] CPU 内存带宽: 1 TB/s
- vs: 顶级 Gen5 CPU
- gain: Grace CPU Superchip 提供了顶级 Gen5 CPU 2 到 3 倍的内存带宽。
- [41:26] CPU 能效: 2x
- vs: 当时最好的 CPU
- gain: Grace CPU Superchip 的能效是最好 CPU 的两倍。
客户故事 (4)
- [22:47] Snap
- 使用 NVIDIA Merlin 进行广告和内容推荐。
- outcome: 成本降低了 50%,服务延迟降低了 2 倍。
- [22:57] Tencent WeChat
- 使用 NVIDIA Merlin 进行短视频推荐。
- outcome: 实现了 4 倍的低延迟和 10 倍的吞吐量,通过从 CPU 迁移到 GPU 将成本减半。
- [01:01:21] Amazon Robotics
- 使用 Omniverse 构建运营中心的数字孪生,以训练和优化自主机器人。
- outcome: 在物理部署之前,实现了更安全、更高效的库存移动并优化了仓库设计。
- [01:04:18] PepsiCo
- 使用 Omniverse 和 Metropolis 创建配送中心的数字孪生。
- outcome: 实时优化传送带速度,防止拥堵并降低能耗。
关键技术 (4)
- Transformer Engine: 使用 FP8 和 FP16 格式动态处理 Transformer 网络的层,在不损失精度的前提下大幅加速训练。
- Hopper 机密计算: 在 GPU 上使用时保护数据和 AI 模型,将其与主机操作系统和虚拟机管理程序隔离。
- DPX 指令: 将动态规划算法(如用于基因组学的 Smith-Waterman)加速高达 40 倍。
- NVLink Chip-to-Chip (C2C): 一种超快、高能效的互连技术,允许定制芯片直接连接到 NVIDIA GPU、CPU 和 DPU。
现场演示 (7)
- [11:03] FourCastNet 预测大气河。
- True
- [14:59] 一个物理模拟角色使用强化学习学习行走和战斗。
- True
- [19:09] Riva FastPitch 生成富有表现力的文本转语音。
- True
- [20:30] Maxine 在实时视频会议中保持眼神交流并翻译语音。
- True
- [59:05] 多名设计师使用 Omniverse Cloud 进行实时协作。
- True
- [01:00:02] Tokkio (Omniverse Avatar) 进行对话式交互并回答问题。
- True
- [01:10:00] DRIVE Sim 将真实的驾驶场景重建为可修改的 3D 模拟。
- True
预测 / 承诺 (5)
- [36:58, 几个月内] EOS 超级计算机将上线。
- [40:37, 明年 (2023)] Grace CPU Superchip 将发货。
- [56:58, Q3 2022] Spectrum-4 交换机将开始提供样品。
- [01:08:55, 从 2026 年开始] DRIVE Hyperion 9 将在汽车中发货。
- [01:09:22, 到 2024 年底] DRIVE Map 将绘制 500,000 公里的道路地图。
公司提及 (4)
TSMC · Intel · BYD · Lucid
引用 (3)
AI is racing in every direction. New architectures, new learning strategies, larger and more robust models, new science, new applications, new industries. — Jensen Huang @ 06:43
Companies are manufacturing intelligence and operating giant AI factories. — Jensen Huang @ 26:00
A digital twin is a virtual world that’s connected to the physical world. And in the context of the internet, it is the next evolution. — Jensen Huang @ 51:11
主题
人工智能 · 加速计算 · Hopper 架构 · H100 GPU · Grace CPU · 数据中心基础设施 · Omniverse · 数字孪生 · 机器人技术 · 自动驾驶汽车 · 大型语言模型 · Transformers · 网络 (Infiniband/以太网)
要点
- NVIDIA 正在将数据中心转型为旨在制造智能的“AI 工厂”。
- 全新的 Hopper 架构和 H100 GPU 提供了巨大的性能飞跃,专为 Transformer 模型量身定制。
- NVIDIA 正在通过 Grace CPU Superchip 和高级网络(Spectrum-4、ConnectX-7)将其芯片版图扩展到 GPU 之外。
- Omniverse 被定位为下一代互联网的基础平台,专注于物理精确的数字孪生。
- 软件和 SDK(如 Riva、Merlin 和 Isaac)对 NVIDIA 的战略至关重要,使复杂的 AI 能够在各个行业中普及。
- 机器人和自主系统正在从感知走向行动,在现实世界部署之前严重依赖模拟(DRIVE Sim、Isaac Sim)。