GTC March 2024 Keynote (Blackwell announcement)

类别: 主 Keynote · 年份: 2024 · ▶ 观看

讲者: Jensen Huang - NVIDIA 创始人兼 CEO

章节 (15)

00:00 · 开场：我是 AI
- 一段电影级视频，展示了 AI 在各行各业的广泛应用。
03:34 · 欢迎来到 GTC
- Jensen Huang 欢迎与会者参加开发者大会，并强调了庞大的行业代表阵容。
07:08 · 加速计算与 AI 的发展历程
- 回顾引领生成式 AI 革命的计算领域历史里程碑。
10:30 · 模拟与 Omniverse
- 展示如何使用 Omniverse 模拟物理世界并训练 AI。
15:00 · 加速 EDA 与模拟行业
- 与 Ansys、Synopsys 和 Cadence 合作，加速工程和芯片设计。
19:50 · 对更大模型和更大 GPU 的需求
- 解释训练万亿参数模型所需算力的指数级增长。
26:05 · 介绍 Blackwell 平台
- 正式发布 Blackwell GPU 架构和 GB200 Superchip。
39:50 · Blackwell 性能与架构
- 详细介绍 Blackwell 相比 Hopper 的性能飞跃，包括全新的 FP4 精度。
42:30 · 扩展至数据中心：NVLink Switch 与 GB200 NVL72
- 介绍构建 AI 工厂所需的网络和机架级系统。
50:00 · 在 Blackwell 上进行训练与推理
- 对比在 Blackwell 和 Hopper 上训练和推理大模型所需的功耗和时间。
01:08:00 · Earth-2：气候科技与天气预测
- 利用 AI 和数字孪生技术高分辨率预测极端天气事件。
01:11:00 · 医疗保健与 BioNeMo
- 将生成式 AI 应用于生物学，用于药物发现和蛋白质生成。
01:16:16 · 生成式 AI 微服务 (NIMs)
- 介绍 NIMs 作为将 AI 模型打包和部署为软件的新方式。
01:38:00 · Omniverse 与工业数字孪生
- Wistron、Siemens 和 Nissan 等公司如何使用 Omniverse 进行工业数字化。
01:42:50 · AI 的下一波浪潮：机器人技术
- 发布用于物理 AI 和人形机器人的新平台和基础模型。

产品发布 (7)

[26:40] Blackwell GPU
- 下一代 AI GPU 架构。
- specs: 2080 亿个晶体管，TSMC 4NP 工艺，20 petaFLOPS AI 性能。
- availability: 未说明
[27:20] GB200 Grace Blackwell Superchip
- 结合了两个 Blackwell GPU 和一个 Grace CPU 的超级芯片。
- specs: 40 petaFLOPS AI 性能，864GB 高速内存，3.6 TB/s NVLink 带宽。
- availability: 未说明
[40:00] NVLink Switch Chip
- 用于高速连接多个 GPU 的网络芯片。
- specs: 500 亿个晶体管，7.2 TB/s 全双工带宽，4 个 NVLink，每个 1.8 TB/s。
- availability: 未说明
[48:40] GB200 NVL72
- 作为单个巨型 GPU 运行的液冷机架级系统。
- specs: 72 个 Blackwell GPU，36 个 Grace CPU，1.44 exaFLOPS 推理性能，130 TB/s 带宽。
- availability: 未说明
[01:16:16] NVIDIA NIM (Inference Microservice)
- 经过打包和优化的预训练 AI 模型，可在整个 CUDA 安装基础上运行。
- specs: 包含行业标准 API、Triton Inference Server 和企业管理工具。
- availability: 可在 ai.nvidia.com 获取
[01:40:00] Omniverse Cloud APIs
- 将 Omniverse 数字孪生流式传输到 Apple Vision Pro 等设备的 API。
- specs: 实现数据互操作性和工业级规模的基于物理的渲染。
- availability: 未说明
[01:51:50] Project GR00T
- 用于人形机器人学习的通用基础模型。
- specs: 接收多模态指令和过去的交互，为机器人生成动作。
- availability: 未说明

数据 (6)

时间	指标	数值	背景
06:33	行业代表	$100 Trillion	在场与会者所代表的全球行业总价值。
26:48	晶体管数量	2080 亿	Blackwell GPU 中的晶体管数量。
27:00	AI 性能	20 PetaFLOPS	单个 Blackwell GPU 的 AI 性能。
48:40	每机架 GPU 数量	72	单个 GB200 NVL72 机架中的 Blackwell GPU 数量。
50:10	功耗	4 兆瓦	使用 2000 个 Blackwell GPU 在 90 天内训练一个 1.8T 参数模型所需的功耗（低于 Hopper 的 15MW）。
01:11:00	推理吞吐量	30x	在 1.8T 参数模型推理上，Blackwell 相比 Hopper 的性能提升。

Benchmark 主张 (3)

[39:50] Training Performance: 2.5x
- vs: Hopper (FP8)
- gain: 每芯片训练性能提升 2.5 倍。
[39:50] Inference Performance: 5x
- vs: Hopper (FP8 vs new FP4)
- gain: 使用全新的 FP4 格式，每芯片推理性能提升 5 倍。
[01:11:00] Large Model Inference Throughput: 30x
- vs: Hopper
- gain: 在 GB200 NVL72 系统上，1.8T 参数 MoE 模型的吞吐量提高 30 倍。

客户故事 (2)

[01:03:00] Wistron
- 使用 Omniverse 构建了其工厂的数字孪生。
- outcome: 将工厂上线时间从 5 个月缩短至 2.5 个月，工人效率提高 51%，周期时间缩短 50%。
[01:39:00] Siemens / HD Hyundai
- 将 Omniverse 集成到 Teamcenter X 中，以构建巨型船舶的数字孪生。
- outcome: 统一了工程数据，实现了交互式可视化，并消除了制造过程中的浪费和错误。

关键技术 (4)

2nd Gen Transformer Engine: 动态将精度缩放至 FP4，使 AI 推理的吞吐量和内存带宽翻倍。
5th Gen NVLink: 在 GPU 之间提供高速、一致的互连，使其能够作为单个巨型 GPU 运行。
NVIDIA NIM: 将 AI 模型与优化的推理引擎和 API 打包，以便轻松部署。
Omniverse: 一个用于构建和运行基于物理的数字孪生的平台。

现场演示 (5)

[01:08:00] Earth-2 高分辨率预测台风等极端天气事件。
- 是
[01:11:00] BioNeMo 生成蛋白质结构和分子。
- 是
[01:24:00] NeMo Retriever 与 PDF 文档交互以回答问题。
- 是
[01:38:00] 工厂和船舶的 Omniverse 数字孪生。
- 是
[01:51:50] 机器人在 Isaac Sim 中学习任务并将技能转移到现实世界。
- 是

预测 / 承诺 (2)

[01:28:30, 未来] 未来的数据中心将被视为 AI 工厂，其目标是生成智能。
[01:44:50, 未来] 所有移动的物体都将是机器人。

公司提及 (4)

Ansys, Synopsys, Cadence · TSMC · AWS, Google Cloud, Oracle, Microsoft Azure · SAP, ServiceNow, Cohesity, Snowflake, NetApp, Dell

引用 (3)

We need bigger GPUs. — Jensen Huang @ 22:15

Blackwell is not a chip, Blackwell is the name of a platform. — Jensen Huang @ 31:18

The future is generative. — Jensen Huang @ 01:15:50

主题

加速计算 · 生成式 AI · Blackwell 架构 · 大型语言模型 · 数字孪生 · Omniverse · 机器人技术 · 医疗保健 AI · 气候科技 · AI 工厂 · NVIDIA NIM · NVLink

要点

NVIDIA 正在从一家芯片公司转型为一家全栈平台公司。
Blackwell 架构在性能和效率上实现了巨大飞跃，专为万亿参数生成式 AI 模型而设计。
生成式 AI 正在超越文本，扩展到视频、3D 和物理模拟领域。
NVIDIA NIMs (推理微服务) 简化了企业自定义 AI 模型的部署。
Omniverse 和数字孪生正在成为工业数字化、制造和机器人训练的关键工具。
AI 的下一波重大浪潮是物理 AI 和机器人技术，由 Project GR00T 和 Isaac 等平台提供支持。