GTC Spring 2022 Keynote

类别: 主 Keynote · 年份: 2022 · ▶ 观看

讲者: Jensen Huang - NVIDIA CEO

Switch language → English

章节 (11)

  • 00:00 · 开场与 I AM AI 视频
    • 开场视频展示了 AI 在各个行业的影响,随后是 Jensen 的开场介绍。
  • 05:25 · 百万倍计算加速
    • Jensen 探讨了加速计算和 AI 如何在过去十年中实现了百万倍的速度提升。
  • 09:10 · 气候科学与 FourCastNet
    • 介绍 FourCastNet,这是一个用于预测极端天气事件的物理信息 AI 模型。
  • 12:18 · NVIDIA AI 软件栈
    • 概述 NVIDIA 的 AI 软件,包括 Triton、Riva、Maxine、Merlin 和 NeMo Megatron。
  • 27:08 · Hopper 架构与 H100 GPU
    • 发布全新的 Hopper 架构、H100 GPU 及其突破性功能(如 Transformer Engine)。
  • 32:36 · HGX、DGX 与 EOS 超级计算机
    • 宣布围绕 H100 构建的系统,并扩展至庞大的 EOS AI 超级计算机。
  • 40:37 · Grace CPU Superchip 与 NVLink C2C
    • 介绍用于 AI 工厂的 Grace CPU Superchip 以及 NVLink Chip-to-Chip 互连技术。
  • 44:22 · 加速计算库
    • SDK 更新,包括 RAPIDS、cuOPT、Morpheus、cuQuantum、Aerial、Sionna、Modulus 和 MONAI。
  • 51:11 · Omniverse 与 OVX
    • 展示用于数字孪生的 Omniverse、全新的 OVX 服务器以及用于协作的 Omniverse Cloud。
  • 01:03:39 · 机器人技术:Isaac 与 Metropolis
    • Isaac 机器人平台、用于追踪的 Metropolis 以及用于医疗设备的 Clara Holoscan 的更新。
  • 01:08:14 · 自动驾驶汽车:DRIVE
    • 宣布 DRIVE Hyperion 9、DRIVE Map,并展示 DRIVE Sim 的功能。

产品发布 (19)

  • [18:35] Riva 2.0
    • 语音 AI SDK
    • specs: 支持 7 种语言的语音识别,具有男女声的神经文本转语音,使用 TAO 进行自定义微调。
    • availability: 全面上市 (GA)
  • [23:18] Merlin 1.0
    • 超大规模推荐系统 AI 框架
    • specs: 端到端流水线,包括特征转换、检索和排序模型。
    • availability: 全面上市 (GA)
  • [23:45] NeMo Megatron
    • 大型语言模型训练 AI 框架
    • specs: 支持高达数万亿参数的模型、自动化数据整理和分布式训练。
    • availability: 未明确说明
  • [27:08] NVIDIA H100 GPU
    • 基于 Hopper 架构的下一代数据中心 GPU
    • specs: 800 亿个晶体管,TSMC 4N 工艺,4.9 TB/s 带宽,PCIe Gen5,Transformer Engine,DPX 指令。
    • availability: 未明确说明
  • [33:00] HGX H100
    • 配备 8 个 H100 GPU 的服务器主板
    • specs: 32 PFLOPS FP8,16 PFLOPS FP16,通过 SHARP 实现 3.6 TFLOPS 的网络内计算。
    • availability: 未明确说明
  • [34:00] DGX H100
    • AI 计算系统
    • specs: 8 个 H100 GPU,32 PFLOPS AI 性能,640 GB HBM3 内存,24 TB/s 内存带宽。
    • availability: 未明确说明
  • [34:46] NVLink Switch System
    • 用于连接多个 DGX 节点的外部交换机
    • specs: 最多连接 32 个 DGX 节点,使 256 个 GPU 作为一个整体运行。
    • availability: 未明确说明
  • [36:58] EOS Supercomputer
    • NVIDIA 内部 AI 超级计算机
    • specs: 18 个 DGX Pod,4608 个 H100 GPU,18.4 EFLOPS AI 性能,275 PFLOPS FP64。
    • availability: 几个月内上线
  • [39:00] H100 CNX
    • 融合 H100 GPU 与 ConnectX-7 SmartNIC
    • specs: 以 50 GB/s 的速度从网络直接 DMA 到 H100,绕过 CPU 瓶颈。
    • availability: 未明确说明
  • [40:37] Grace CPU Superchip
    • 专为 AI 和 HPC 设计的数据中心 CPU
    • specs: 144 个 CPU 核心,1 TB/s 内存带宽,SPECrate2017_int_base 超过 740,功耗 500W。
    • availability: 按计划于明年 (2023) 发货
  • [42:40] NVLink Chip-to-Chip (C2C)
    • 用于定制芯片集成的高速互连技术
    • specs: 900 GB/s 带宽,超高能效,低延迟。
    • availability: 向客户和合作伙伴提供
  • [45:56] cuOPT
    • 用于路线优化的 AI 加速求解器
    • specs: 多智能体、多约束的路线规划优化。
    • availability: 未明确说明
  • [52:59] NVIDIA OVX Server
    • 专为 Omniverse 数字孪生设计的计算系统
    • specs: 8 个 A40 GPU,3 个 ConnectX-6 网卡,2 个 Intel Ice Lake CPU,1 TB 系统内存。
    • availability: 现已通过顶级计算机制造商供货
  • [56:58] Spectrum-4
    • 400G 以太网交换机
    • specs: 1000 亿个晶体管,51.2 Tbps 带宽,128 个 400GbE 端口。
    • availability: 将于 Q3 提供样品
  • [58:43] Omniverse Cloud
    • 用于 Omniverse 协作的云端套件
    • specs: 无需本地 RTX 硬件,即可在任何地方进行一键式设计协作。
    • availability: 未明确说明
  • [01:04:00] Isaac Nova Orin
    • 参考 AMR(自主移动机器人)架构
    • specs: 由 Jetson AGX Orin 驱动,包含 2 个摄像头、2 个激光雷达、8 个超声波传感器、4 个鱼眼摄像头。
    • availability: 将于 Q2 供货
  • [01:07:49] Clara Holoscan MGX
    • 用于机器人医疗设备的医疗级平台
    • specs: 按照 IEC 62304 标准设计,由 Orin 和 CX7 驱动。
    • availability: 今日开放抢先体验,5 月全面上市 (GA),Q1 2023 达到医疗级就绪状态
  • [01:08:55] DRIVE Hyperion 9
    • 开放式参考自动驾驶平台
    • specs: 由双 Atlan SoC 驱动,14 个摄像头、9 个雷达、3 个激光雷达、20 个超声波传感器。
    • availability: 用于 2026 年起发货的汽车
  • [01:09:22] DRIVE Map
    • 用于自动驾驶汽车的多模态地图引擎
    • specs: 包含摄像头、雷达和激光雷达层;由真实数据和众包数据自动生成。
    • availability: 预计到 2024 年底完成 500,000 公里的地图绘制

数据 (12)

时间 指标 数值 背景
06:00 加速比 1,000,000x 过去十年中,由于加速计算和机器学习带来的计算性能提升。
07:28 开发者数量 3,000,000 NVIDIA 生态系统中的开发者数量。
10:20 加速比 4 到 5 个数量级 FourCastNet 预测天气的速度比经典数值模型快多少。
27:30 晶体管数量 800 亿 H100 GPU 中的晶体管数量。
28:20 性能 4,000 TFLOPS H100 GPU 的 FP8 性能。
31:42 加速比 40x 在 Hopper 上使用全新 DPX 指令的动态规划算法加速比。
34:00 性能 32 PFLOPS 单台 DGX H100 系统的 AI 性能。
36:58 性能 18.4 EFLOPS EOS 超级计算机的 AI 性能。
38:08 加速比 30x 对于大型语言模型,H100 相比 A100 的推理吞吐量提升。
41:26 核心数 144 Grace CPU Superchip 中的 CPU 核心数量。
41:26 性能 740 Grace CPU Superchip 的预估 SPECrate2017_int_base 分数。
56:58 带宽 51.2 Tbps Spectrum-4 交换机的总带宽。

Benchmark 主张 (4)

  • [29:12] AI 处理 (FP8 对比 FP16): 6x
    • vs: Ampere A100
    • gain: 在 AI 处理方面,Hopper H100 提供了 Ampere A100 6 倍的性能。
  • [38:08] 大型语言模型推理 (Megatron 530B): 30x
    • vs: Ampere A100
    • gain: 在 1 秒响应延迟下,H100 提供的吞吐量比 A100 高 30 倍。
  • [41:26] CPU 内存带宽: 1 TB/s
    • vs: 顶级 Gen5 CPU
    • gain: Grace CPU Superchip 提供了顶级 Gen5 CPU 2 到 3 倍的内存带宽。
  • [41:26] CPU 能效: 2x
    • vs: 当时最好的 CPU
    • gain: Grace CPU Superchip 的能效是最好 CPU 的两倍。

客户故事 (4)

  • [22:47] Snap
    • 使用 NVIDIA Merlin 进行广告和内容推荐。
    • outcome: 成本降低了 50%,服务延迟降低了 2 倍。
  • [22:57] Tencent WeChat
    • 使用 NVIDIA Merlin 进行短视频推荐。
    • outcome: 实现了 4 倍的低延迟和 10 倍的吞吐量,通过从 CPU 迁移到 GPU 将成本减半。
  • [01:01:21] Amazon Robotics
    • 使用 Omniverse 构建运营中心的数字孪生,以训练和优化自主机器人。
    • outcome: 在物理部署之前,实现了更安全、更高效的库存移动并优化了仓库设计。
  • [01:04:18] PepsiCo
    • 使用 Omniverse 和 Metropolis 创建配送中心的数字孪生。
    • outcome: 实时优化传送带速度,防止拥堵并降低能耗。

关键技术 (4)

  • Transformer Engine: 使用 FP8 和 FP16 格式动态处理 Transformer 网络的层,在不损失精度的前提下大幅加速训练。
  • Hopper 机密计算: 在 GPU 上使用时保护数据和 AI 模型,将其与主机操作系统和虚拟机管理程序隔离。
  • DPX 指令: 将动态规划算法(如用于基因组学的 Smith-Waterman)加速高达 40 倍。
  • NVLink Chip-to-Chip (C2C): 一种超快、高能效的互连技术,允许定制芯片直接连接到 NVIDIA GPU、CPU 和 DPU。

现场演示 (7)

  • [11:03] FourCastNet 预测大气河。
    • True
  • [14:59] 一个物理模拟角色使用强化学习学习行走和战斗。
    • True
  • [19:09] Riva FastPitch 生成富有表现力的文本转语音。
    • True
  • [20:30] Maxine 在实时视频会议中保持眼神交流并翻译语音。
    • True
  • [59:05] 多名设计师使用 Omniverse Cloud 进行实时协作。
    • True
  • [01:00:02] Tokkio (Omniverse Avatar) 进行对话式交互并回答问题。
    • True
  • [01:10:00] DRIVE Sim 将真实的驾驶场景重建为可修改的 3D 模拟。
    • True

预测 / 承诺 (5)

  • [36:58, 几个月内] EOS 超级计算机将上线。
  • [40:37, 明年 (2023)] Grace CPU Superchip 将发货。
  • [56:58, Q3 2022] Spectrum-4 交换机将开始提供样品。
  • [01:08:55, 从 2026 年开始] DRIVE Hyperion 9 将在汽车中发货。
  • [01:09:22, 到 2024 年底] DRIVE Map 将绘制 500,000 公里的道路地图。

公司提及 (4)

TSMC · Intel · BYD · Lucid

引用 (3)

AI is racing in every direction. New architectures, new learning strategies, larger and more robust models, new science, new applications, new industries. — Jensen Huang @ 06:43

Companies are manufacturing intelligence and operating giant AI factories. — Jensen Huang @ 26:00

A digital twin is a virtual world that’s connected to the physical world. And in the context of the internet, it is the next evolution. — Jensen Huang @ 51:11

主题

人工智能 · 加速计算 · Hopper 架构 · H100 GPU · Grace CPU · 数据中心基础设施 · Omniverse · 数字孪生 · 机器人技术 · 自动驾驶汽车 · 大型语言模型 · Transformers · 网络 (Infiniband/以太网)

要点

  • NVIDIA 正在将数据中心转型为旨在制造智能的“AI 工厂”。
  • 全新的 Hopper 架构和 H100 GPU 提供了巨大的性能飞跃,专为 Transformer 模型量身定制。
  • NVIDIA 正在通过 Grace CPU Superchip 和高级网络(Spectrum-4、ConnectX-7)将其芯片版图扩展到 GPU 之外。
  • Omniverse 被定位为下一代互联网的基础平台,专注于物理精确的数字孪生。
  • 软件和 SDK(如 Riva、Merlin 和 Isaac)对 NVIDIA 的战略至关重要,使复杂的 AI 能够在各个行业中普及。
  • 机器人和自主系统正在从感知走向行动,在现实世界部署之前严重依赖模拟(DRIVE Sim、Isaac Sim)。