GTC Taiwan Jensen Keynote

类别: 台湾 Keynote · 年份: 2018 · ▶ 观看

章节 (22)

00:00 · 开场介绍
- Jensen Huang 欢迎观众参加 GTC Taiwan 2018。
01:06 · GPU 计算的崛起
- 讨论摩尔定律的终结以及 GPU 加速计算的必要性。
04:08 · 计算鸿沟
- 强调未来仅靠 CPU 无法满足的对计算能力的巨大需求。
06:50 · NVIDIA 加速计算栈
- 解释 NVIDIA 从架构到应用程序的全栈优化方法。
13:20 · GPU 加速的 HPC 集群
- 在成本、空间和功耗方面比较传统 CPU 集群与 GPU 集群。
19:40 · AI 训练需求
- 展示训练神经网络所需计算量的指数级增长。
23:20 · Tensor Core GPU
- 介绍 Volta 架构及其对 HPC 和 AI 计算的融合。
27:20 · NVSwitch
- 揭晓允许多个 GPU 作为一个整体运行的高速互连技术。
29:30 · 发布 DGX-2
- 介绍世界上最大的 GPU 系统 DGX-2。
35:20 · DGX-2 实体展示
- Jensen Huang 在舞台上亲自展示重达 350 磅的 DGX-2 系统。
37:30 · 6 个月内实现 10 倍性能提升
- 展示通过全栈优化实现的快速性能提升。
44:30 · 5 项速度纪录
- 强调创纪录的 AI 训练和推理性能指标。
46:30 · AI 推理与 TensorRT 4
- 重点讨论 AI 推理的挑战并介绍 TensorRT 4。
57:00 · NVIDIA GPU 上的 Kubernetes
- 宣布 Kubernetes 支持 GPU，以横向扩展 AI 工作负载。
01:01:00 · PLASTER 框架
- 介绍一个用于评估推理性能的框架。
01:10:00 · 推理演示
- 图像识别和横向扩展推理的现场演示。
01:20:00 · 发布 HGX-2
- 揭晓面向超大规模数据中心的 HGX-2 云服务器平台。
01:30:00 · NVIDIA RTX
- 介绍用于计算机图形的实时光线追踪技术。
01:43:00 · NVIDIA Clara
- 宣布推出 Clara 医学影像超级计算机平台。
01:56:00 · NVIDIA Metropolis
- 讨论智能安全城市的 AI 应用。
02:01:00 · NVIDIA DRIVE 与自动驾驶汽车
- 概述自动驾驶的端到端平台。
02:06:00 · Project We-kanda 演示
- 现场 VR 远程呈现驾驶演示。

产品发布 (6)

[29:30] DGX-2
- 世界上最大的 GPU 系统，结合了 16 个 Volta GPU。
- specs: 2 PFLOPS，512GB HBM2 内存，10kW 功耗，350 磅。
- availability: $399,000，第三季度上市。
[46:30] TensorRT 4
- 用于深度学习推理的优化编译器。
- specs: 与 TensorFlow、ONNX 集成，并加速各种网络类型。
- availability: 未明确说明。
[57:00] Kubernetes on NVIDIA GPUs
- 对 NVIDIA GPU 的容器编排支持。
- specs: 允许跨数据中心和云横向扩展 AI 工作负载。
- availability: 未明确说明。
[01:20:00] HGX-2
- 云服务器平台基板。
- specs: 融合 HPC 和 AI 计算，2 PFLOPS，使用 NVSwitch。
- availability: 未明确说明。
[01:30:00] NVIDIA RTX
- 实时光线追踪技术。
- specs: 结合了可编程着色、光线追踪和 AI。
- availability: 未明确说明。
[01:43:00] NVIDIA Clara
- 医学影像超级计算机平台。
- specs: 虚拟化医学影像仪器，使用迭代重建和 AI。
- availability: 未明确说明。

数据 (8)

时间	指标	数值	背景
01:25	性能提升	100,000x	摩尔定律放缓前 25 年间 CPU 的性能提升。
02:50	CUDA 开发者数量	850,000	全球 CUDA 开发者数量。
05:45	计算需求	1,000 Exaflops	预计到 2028 年的计算需求。
20:37	计算需求增长	300,000x	5 年内 AI 训练所需计算量的增长（OpenAI 数据）。
33:45	性能	2 PFLOPS	DGX-2 系统的计算能力。
39:31	价格	$399,000	DGX-2 系统的成本。
45:00	训练速度	15,500 images/sec	DGX-2 训练 ResNet-50 的纪录。
45:20	推理延迟	1.1 milliseconds	ResNet-50 推理的延迟纪录。

Benchmark 主张 (3)

[40:30] DGX-2 vs 传统超大规模集群: 1 台 DGX-2
- vs: 300 台双路 CPU 服务器
- gain: 1/8 的成本，1/60 的空间，1/18 的功耗。
[37:30] DGX-2 vs DGX-1 训练时间: 1.5 天
- vs: 15 天
- gain: 仅通过 6 个月的全栈优化，训练速度就提高了 10 倍。
[01:08:00] TensorRT 4 推理加速: 高达 190x
- vs: 仅 CPU 推理
- gain: 图像/视频 190x，NLP 50x，推荐系统 45x。

客户故事 (2)

[15:25] 量子化学家
- 使用消费级 GeForce GPU 上的 CUDA 运行量子化学模拟。
- outcome: 实现了巨大的速度提升，使他能够在有生之年完成毕生的工作，将其描述为一台“时间机器”。
[19:57] OpenAI
- 测量了训练最先进神经网络所需的计算量。
- outcome: 发现在 5 年内计算需求增长了 300,000 倍。

关键技术 (6)

CUDA: NVIDIA 的并行计算平台和编程模型。
Tensor Core: 一种融合了 HPC 和 AI 计算的专用核心，执行混合精度矩阵数学运算。
NVSwitch: 一种高速互连交换机，允许多个 GPU 以极高的带宽进行通信。
TensorRT: 用于深度学习推理的优化编译器和运行时。
Kubernetes: 一个用于自动部署、扩展和管理容器化应用程序的开源系统。
RTX: NVIDIA 的实时光线追踪技术，结合了光栅化、光线追踪和 AI。

现场演示 (5)

[01:10:00] 花卉图像识别推理，比较 CPU 与 GPU 的性能。
- True
[01:16:00] 使用 Kubernetes 动态添加 GPU 节点以处理增加的负载的横向扩展 AI 推理。
- True
[01:38:00] 《星球大战：反射》演示，展示了使用 RTX 技术的实时光线追踪。
- True
[01:46:00] Clara 医学影像演示，比较 CPU 与 GPU 对 CT 扫描的迭代重建。
- True
[02:01:00] Project We-kanda：一个 VR 远程呈现演示，远程驾驶微型汽车和真实汽车。
- True

预测 / 承诺 (3)

[04:57, 10 years] 在未来 10 年内，计算需求将增长 100 倍以上。
[16:45, 未来] 未来的每一台超级计算机都将被加速。
[01:51:50, 未来] 所有移动的物体都将是自动驾驶的。

公司提及 (5)

TSMC · Google (TensorFlow) · Quanta, Wistron, Foxconn, Inventec · Epic Games, ILM · GE Healthcare, Philips, Siemens, Canon

引用 (3)

The more you buy, the more you save. — Jensen Huang @ 14:38

We created for him a time machine. — Jensen Huang @ 16:14

There is a new law in town… if you optimize across the entire stack, the performance improvement you can achieve is incredibly fast. — Jensen Huang @ 38:12

主题

GPU 计算 · 摩尔定律 · 超级计算 · 深度学习训练 · 深度学习推理 · Tensor Core · NVSwitch · DGX-2 · HGX-2 · TensorRT · Kubernetes · 实时光线追踪 · 医学影像 · 自动驾驶汽车

要点

CPU 的扩展已经停滞，这使得 GPU 加速计算成为未来性能提升的关键。
NVIDIA 正在对整个计算栈（芯片、系统、软件、算法）进行优化，以提供指数级的速度提升。
由 NVSwitch 驱动的 DGX-2 就像一个巨大的单一 GPU，用于应对海量的 AI 训练工作负载。
TensorRT 4 和 Kubernetes 的集成使 NVIDIA GPU 在数据中心的 AI 推理中变得高效且可扩展。
NVIDIA RTX 将实时光线追踪引入计算机图形学，彻底改变了内容创作和游戏。
NVIDIA 的平台正在向医学影像（Clara）和自主机器（DRIVE）等垂直领域扩展。