GTC Spring 2022 Keynote

类别: 主 Keynote · 年份: 2022 · ▶ 观看

讲者: Jensen Huang - NVIDIA CEO

章节 (11)

00:00 · 开场与 I AM AI 视频
- 开场视频展示了 AI 在各个行业的影响，随后是 Jensen 的开场介绍。
05:25 · 百万倍计算加速
- Jensen 探讨了加速计算和 AI 如何在过去十年中实现了百万倍的速度提升。
09:10 · 气候科学与 FourCastNet
- 介绍 FourCastNet，这是一个用于预测极端天气事件的物理信息 AI 模型。
12:18 · NVIDIA AI 软件栈
- 概述 NVIDIA 的 AI 软件，包括 Triton、Riva、Maxine、Merlin 和 NeMo Megatron。
27:08 · Hopper 架构与 H100 GPU
- 发布全新的 Hopper 架构、H100 GPU 及其突破性功能（如 Transformer Engine）。
32:36 · HGX、DGX 与 EOS 超级计算机
- 宣布围绕 H100 构建的系统，并扩展至庞大的 EOS AI 超级计算机。
40:37 · Grace CPU Superchip 与 NVLink C2C
- 介绍用于 AI 工厂的 Grace CPU Superchip 以及 NVLink Chip-to-Chip 互连技术。
44:22 · 加速计算库
- SDK 更新，包括 RAPIDS、cuOPT、Morpheus、cuQuantum、Aerial、Sionna、Modulus 和 MONAI。
51:11 · Omniverse 与 OVX
- 展示用于数字孪生的 Omniverse、全新的 OVX 服务器以及用于协作的 Omniverse Cloud。
01:03:39 · 机器人技术：Isaac 与 Metropolis
- Isaac 机器人平台、用于追踪的 Metropolis 以及用于医疗设备的 Clara Holoscan 的更新。
01:08:14 · 自动驾驶汽车：DRIVE
- 宣布 DRIVE Hyperion 9、DRIVE Map，并展示 DRIVE Sim 的功能。

产品发布 (19)

[18:35] Riva 2.0
- 语音 AI SDK
- specs: 支持 7 种语言的语音识别，具有男女声的神经文本转语音，使用 TAO 进行自定义微调。
- availability: 全面上市 (GA)
[23:18] Merlin 1.0
- 超大规模推荐系统 AI 框架
- specs: 端到端流水线，包括特征转换、检索和排序模型。
- availability: 全面上市 (GA)
[23:45] NeMo Megatron
- 大型语言模型训练 AI 框架
- specs: 支持高达数万亿参数的模型、自动化数据整理和分布式训练。
- availability: 未明确说明
[27:08] NVIDIA H100 GPU
- 基于 Hopper 架构的下一代数据中心 GPU
- specs: 800 亿个晶体管，TSMC 4N 工艺，4.9 TB/s 带宽，PCIe Gen5，Transformer Engine，DPX 指令。
- availability: 未明确说明
[33:00] HGX H100
- 配备 8 个 H100 GPU 的服务器主板
- specs: 32 PFLOPS FP8，16 PFLOPS FP16，通过 SHARP 实现 3.6 TFLOPS 的网络内计算。
- availability: 未明确说明
[34:00] DGX H100
- AI 计算系统
- specs: 8 个 H100 GPU，32 PFLOPS AI 性能，640 GB HBM3 内存，24 TB/s 内存带宽。
- availability: 未明确说明
[34:46] NVLink Switch System
- 用于连接多个 DGX 节点的外部交换机
- specs: 最多连接 32 个 DGX 节点，使 256 个 GPU 作为一个整体运行。
- availability: 未明确说明
[36:58] EOS Supercomputer
- NVIDIA 内部 AI 超级计算机
- specs: 18 个 DGX Pod，4608 个 H100 GPU，18.4 EFLOPS AI 性能，275 PFLOPS FP64。
- availability: 几个月内上线
[39:00] H100 CNX
- 融合 H100 GPU 与 ConnectX-7 SmartNIC
- specs: 以 50 GB/s 的速度从网络直接 DMA 到 H100，绕过 CPU 瓶颈。
- availability: 未明确说明
[40:37] Grace CPU Superchip
- 专为 AI 和 HPC 设计的数据中心 CPU
- specs: 144 个 CPU 核心，1 TB/s 内存带宽，SPECrate2017_int_base 超过 740，功耗 500W。
- availability: 按计划于明年 (2023) 发货
[42:40] NVLink Chip-to-Chip (C2C)
- 用于定制芯片集成的高速互连技术
- specs: 900 GB/s 带宽，超高能效，低延迟。
- availability: 向客户和合作伙伴提供
[45:56] cuOPT
- 用于路线优化的 AI 加速求解器
- specs: 多智能体、多约束的路线规划优化。
- availability: 未明确说明
[52:59] NVIDIA OVX Server
- 专为 Omniverse 数字孪生设计的计算系统
- specs: 8 个 A40 GPU，3 个 ConnectX-6 网卡，2 个 Intel Ice Lake CPU，1 TB 系统内存。
- availability: 现已通过顶级计算机制造商供货
[56:58] Spectrum-4
- 400G 以太网交换机
- specs: 1000 亿个晶体管，51.2 Tbps 带宽，128 个 400GbE 端口。
- availability: 将于 Q3 提供样品
[58:43] Omniverse Cloud
- 用于 Omniverse 协作的云端套件
- specs: 无需本地 RTX 硬件，即可在任何地方进行一键式设计协作。
- availability: 未明确说明
[01:04:00] Isaac Nova Orin
- 参考 AMR（自主移动机器人）架构
- specs: 由 Jetson AGX Orin 驱动，包含 2 个摄像头、2 个激光雷达、8 个超声波传感器、4 个鱼眼摄像头。
- availability: 将于 Q2 供货
[01:07:49] Clara Holoscan MGX
- 用于机器人医疗设备的医疗级平台
- specs: 按照 IEC 62304 标准设计，由 Orin 和 CX7 驱动。
- availability: 今日开放抢先体验，5 月全面上市 (GA)，Q1 2023 达到医疗级就绪状态
[01:08:55] DRIVE Hyperion 9
- 开放式参考自动驾驶平台
- specs: 由双 Atlan SoC 驱动，14 个摄像头、9 个雷达、3 个激光雷达、20 个超声波传感器。
- availability: 用于 2026 年起发货的汽车
[01:09:22] DRIVE Map
- 用于自动驾驶汽车的多模态地图引擎
- specs: 包含摄像头、雷达和激光雷达层；由真实数据和众包数据自动生成。
- availability: 预计到 2024 年底完成 500,000 公里的地图绘制

数据 (12)

时间	指标	数值	背景
06:00	加速比	1,000,000x	过去十年中，由于加速计算和机器学习带来的计算性能提升。
07:28	开发者数量	3,000,000	NVIDIA 生态系统中的开发者数量。
10:20	加速比	4 到 5 个数量级	FourCastNet 预测天气的速度比经典数值模型快多少。
27:30	晶体管数量	800 亿	H100 GPU 中的晶体管数量。
28:20	性能	4,000 TFLOPS	H100 GPU 的 FP8 性能。
31:42	加速比	40x	在 Hopper 上使用全新 DPX 指令的动态规划算法加速比。
34:00	性能	32 PFLOPS	单台 DGX H100 系统的 AI 性能。
36:58	性能	18.4 EFLOPS	EOS 超级计算机的 AI 性能。
38:08	加速比	30x	对于大型语言模型，H100 相比 A100 的推理吞吐量提升。
41:26	核心数	144	Grace CPU Superchip 中的 CPU 核心数量。
41:26	性能	740	Grace CPU Superchip 的预估 SPECrate2017_int_base 分数。
56:58	带宽	51.2 Tbps	Spectrum-4 交换机的总带宽。

Benchmark 主张 (4)

[29:12] AI 处理 (FP8 对比 FP16): 6x
- vs: Ampere A100
- gain: 在 AI 处理方面，Hopper H100 提供了 Ampere A100 6 倍的性能。
[38:08] 大型语言模型推理 (Megatron 530B): 30x
- vs: Ampere A100
- gain: 在 1 秒响应延迟下，H100 提供的吞吐量比 A100 高 30 倍。
[41:26] CPU 内存带宽: 1 TB/s
- vs: 顶级 Gen5 CPU
- gain: Grace CPU Superchip 提供了顶级 Gen5 CPU 2 到 3 倍的内存带宽。
[41:26] CPU 能效: 2x
- vs: 当时最好的 CPU
- gain: Grace CPU Superchip 的能效是最好 CPU 的两倍。

客户故事 (4)

[22:47] Snap
- 使用 NVIDIA Merlin 进行广告和内容推荐。
- outcome: 成本降低了 50%，服务延迟降低了 2 倍。
[22:57] Tencent WeChat
- 使用 NVIDIA Merlin 进行短视频推荐。
- outcome: 实现了 4 倍的低延迟和 10 倍的吞吐量，通过从 CPU 迁移到 GPU 将成本减半。
[01:01:21] Amazon Robotics
- 使用 Omniverse 构建运营中心的数字孪生，以训练和优化自主机器人。
- outcome: 在物理部署之前，实现了更安全、更高效的库存移动并优化了仓库设计。
[01:04:18] PepsiCo
- 使用 Omniverse 和 Metropolis 创建配送中心的数字孪生。
- outcome: 实时优化传送带速度，防止拥堵并降低能耗。

关键技术 (4)

Transformer Engine: 使用 FP8 和 FP16 格式动态处理 Transformer 网络的层，在不损失精度的前提下大幅加速训练。
Hopper 机密计算: 在 GPU 上使用时保护数据和 AI 模型，将其与主机操作系统和虚拟机管理程序隔离。
DPX 指令: 将动态规划算法（如用于基因组学的 Smith-Waterman）加速高达 40 倍。
NVLink Chip-to-Chip (C2C): 一种超快、高能效的互连技术，允许定制芯片直接连接到 NVIDIA GPU、CPU 和 DPU。

现场演示 (7)

[11:03] FourCastNet 预测大气河。
- True
[14:59] 一个物理模拟角色使用强化学习学习行走和战斗。
- True
[19:09] Riva FastPitch 生成富有表现力的文本转语音。
- True
[20:30] Maxine 在实时视频会议中保持眼神交流并翻译语音。
- True
[59:05] 多名设计师使用 Omniverse Cloud 进行实时协作。
- True
[01:00:02] Tokkio (Omniverse Avatar) 进行对话式交互并回答问题。
- True
[01:10:00] DRIVE Sim 将真实的驾驶场景重建为可修改的 3D 模拟。
- True

预测 / 承诺 (5)

[36:58, 几个月内] EOS 超级计算机将上线。
[40:37, 明年 (2023)] Grace CPU Superchip 将发货。
[56:58, Q3 2022] Spectrum-4 交换机将开始提供样品。
[01:08:55, 从 2026 年开始] DRIVE Hyperion 9 将在汽车中发货。
[01:09:22, 到 2024 年底] DRIVE Map 将绘制 500,000 公里的道路地图。

公司提及 (4)

TSMC · Intel · BYD · Lucid

引用 (3)

AI is racing in every direction. New architectures, new learning strategies, larger and more robust models, new science, new applications, new industries. — Jensen Huang @ 06:43

Companies are manufacturing intelligence and operating giant AI factories. — Jensen Huang @ 26:00

A digital twin is a virtual world that’s connected to the physical world. And in the context of the internet, it is the next evolution. — Jensen Huang @ 51:11

主题

人工智能 · 加速计算 · Hopper 架构 · H100 GPU · Grace CPU · 数据中心基础设施 · Omniverse · 数字孪生 · 机器人技术 · 自动驾驶汽车 · 大型语言模型 · Transformers · 网络 (Infiniband/以太网)

要点

NVIDIA 正在将数据中心转型为旨在制造智能的“AI 工厂”。
全新的 Hopper 架构和 H100 GPU 提供了巨大的性能飞跃，专为 Transformer 模型量身定制。
NVIDIA 正在通过 Grace CPU Superchip 和高级网络（Spectrum-4、ConnectX-7）将其芯片版图扩展到 GPU 之外。
Omniverse 被定位为下一代互联网的基础平台，专注于物理精确的数字孪生。
软件和 SDK（如 Riva、Merlin 和 Isaac）对 NVIDIA 的战略至关重要，使复杂的 AI 能够在各个行业中普及。
机器人和自主系统正在从感知走向行动，在现实世界部署之前严重依赖模拟（DRIVE Sim、Isaac Sim）。