GTC Taiwan Jensen Keynote
类别: 台湾 Keynote · 年份: 2018 · ▶ 观看
章节 (22)
- 00:00 · 开场介绍
- Jensen Huang 欢迎观众参加 GTC Taiwan 2018。
- 01:06 · GPU 计算的崛起
- 讨论摩尔定律的终结以及 GPU 加速计算的必要性。
- 04:08 · 计算鸿沟
- 强调未来仅靠 CPU 无法满足的对计算能力的巨大需求。
- 06:50 · NVIDIA 加速计算栈
- 解释 NVIDIA 从架构到应用程序的全栈优化方法。
- 13:20 · GPU 加速的 HPC 集群
- 在成本、空间和功耗方面比较传统 CPU 集群与 GPU 集群。
- 19:40 · AI 训练需求
- 展示训练神经网络所需计算量的指数级增长。
- 23:20 · Tensor Core GPU
- 介绍 Volta 架构及其对 HPC 和 AI 计算的融合。
- 27:20 · NVSwitch
- 揭晓允许多个 GPU 作为一个整体运行的高速互连技术。
- 29:30 · 发布 DGX-2
- 介绍世界上最大的 GPU 系统 DGX-2。
- 35:20 · DGX-2 实体展示
- Jensen Huang 在舞台上亲自展示重达 350 磅的 DGX-2 系统。
- 37:30 · 6 个月内实现 10 倍性能提升
- 展示通过全栈优化实现的快速性能提升。
- 44:30 · 5 项速度纪录
- 强调创纪录的 AI 训练和推理性能指标。
- 46:30 · AI 推理与 TensorRT 4
- 重点讨论 AI 推理的挑战并介绍 TensorRT 4。
- 57:00 · NVIDIA GPU 上的 Kubernetes
- 宣布 Kubernetes 支持 GPU,以横向扩展 AI 工作负载。
- 01:01:00 · PLASTER 框架
- 介绍一个用于评估推理性能的框架。
- 01:10:00 · 推理演示
- 图像识别和横向扩展推理的现场演示。
- 01:20:00 · 发布 HGX-2
- 揭晓面向超大规模数据中心的 HGX-2 云服务器平台。
- 01:30:00 · NVIDIA RTX
- 介绍用于计算机图形的实时光线追踪技术。
- 01:43:00 · NVIDIA Clara
- 宣布推出 Clara 医学影像超级计算机平台。
- 01:56:00 · NVIDIA Metropolis
- 讨论智能安全城市的 AI 应用。
- 02:01:00 · NVIDIA DRIVE 与自动驾驶汽车
- 概述自动驾驶的端到端平台。
- 02:06:00 · Project We-kanda 演示
- 现场 VR 远程呈现驾驶演示。
产品发布 (6)
- [29:30] DGX-2
- 世界上最大的 GPU 系统,结合了 16 个 Volta GPU。
- specs: 2 PFLOPS,512GB HBM2 内存,10kW 功耗,350 磅。
- availability: $399,000,第三季度上市。
- [46:30] TensorRT 4
- 用于深度学习推理的优化编译器。
- specs: 与 TensorFlow、ONNX 集成,并加速各种网络类型。
- availability: 未明确说明。
- [57:00] Kubernetes on NVIDIA GPUs
- 对 NVIDIA GPU 的容器编排支持。
- specs: 允许跨数据中心和云横向扩展 AI 工作负载。
- availability: 未明确说明。
- [01:20:00] HGX-2
- 云服务器平台基板。
- specs: 融合 HPC 和 AI 计算,2 PFLOPS,使用 NVSwitch。
- availability: 未明确说明。
- [01:30:00] NVIDIA RTX
- 实时光线追踪技术。
- specs: 结合了可编程着色、光线追踪和 AI。
- availability: 未明确说明。
- [01:43:00] NVIDIA Clara
- 医学影像超级计算机平台。
- specs: 虚拟化医学影像仪器,使用迭代重建和 AI。
- availability: 未明确说明。
数据 (8)
| 时间 | 指标 | 数值 | 背景 |
|---|---|---|---|
| 01:25 | 性能提升 | 100,000x | 摩尔定律放缓前 25 年间 CPU 的性能提升。 |
| 02:50 | CUDA 开发者数量 | 850,000 | 全球 CUDA 开发者数量。 |
| 05:45 | 计算需求 | 1,000 Exaflops | 预计到 2028 年的计算需求。 |
| 20:37 | 计算需求增长 | 300,000x | 5 年内 AI 训练所需计算量的增长(OpenAI 数据)。 |
| 33:45 | 性能 | 2 PFLOPS | DGX-2 系统的计算能力。 |
| 39:31 | 价格 | $399,000 | DGX-2 系统的成本。 |
| 45:00 | 训练速度 | 15,500 images/sec | DGX-2 训练 ResNet-50 的纪录。 |
| 45:20 | 推理延迟 | 1.1 milliseconds | ResNet-50 推理的延迟纪录。 |
Benchmark 主张 (3)
- [40:30] DGX-2 vs 传统超大规模集群: 1 台 DGX-2
- vs: 300 台双路 CPU 服务器
- gain: 1/8 的成本,1/60 的空间,1/18 的功耗。
- [37:30] DGX-2 vs DGX-1 训练时间: 1.5 天
- vs: 15 天
- gain: 仅通过 6 个月的全栈优化,训练速度就提高了 10 倍。
- [01:08:00] TensorRT 4 推理加速: 高达 190x
- vs: 仅 CPU 推理
- gain: 图像/视频 190x,NLP 50x,推荐系统 45x。
客户故事 (2)
- [15:25] 量子化学家
- 使用消费级 GeForce GPU 上的 CUDA 运行量子化学模拟。
- outcome: 实现了巨大的速度提升,使他能够在有生之年完成毕生的工作,将其描述为一台“时间机器”。
- [19:57] OpenAI
- 测量了训练最先进神经网络所需的计算量。
- outcome: 发现在 5 年内计算需求增长了 300,000 倍。
关键技术 (6)
- CUDA: NVIDIA 的并行计算平台和编程模型。
- Tensor Core: 一种融合了 HPC 和 AI 计算的专用核心,执行混合精度矩阵数学运算。
- NVSwitch: 一种高速互连交换机,允许多个 GPU 以极高的带宽进行通信。
- TensorRT: 用于深度学习推理的优化编译器和运行时。
- Kubernetes: 一个用于自动部署、扩展和管理容器化应用程序的开源系统。
- RTX: NVIDIA 的实时光线追踪技术,结合了光栅化、光线追踪和 AI。
现场演示 (5)
- [01:10:00] 花卉图像识别推理,比较 CPU 与 GPU 的性能。
- True
- [01:16:00] 使用 Kubernetes 动态添加 GPU 节点以处理增加的负载的横向扩展 AI 推理。
- True
- [01:38:00] 《星球大战:反射》演示,展示了使用 RTX 技术的实时光线追踪。
- True
- [01:46:00] Clara 医学影像演示,比较 CPU 与 GPU 对 CT 扫描的迭代重建。
- True
- [02:01:00] Project We-kanda:一个 VR 远程呈现演示,远程驾驶微型汽车和真实汽车。
- True
预测 / 承诺 (3)
- [04:57, 10 years] 在未来 10 年内,计算需求将增长 100 倍以上。
- [16:45, 未来] 未来的每一台超级计算机都将被加速。
- [01:51:50, 未来] 所有移动的物体都将是自动驾驶的。
公司提及 (5)
TSMC · Google (TensorFlow) · Quanta, Wistron, Foxconn, Inventec · Epic Games, ILM · GE Healthcare, Philips, Siemens, Canon
引用 (3)
The more you buy, the more you save. — Jensen Huang @ 14:38
We created for him a time machine. — Jensen Huang @ 16:14
There is a new law in town… if you optimize across the entire stack, the performance improvement you can achieve is incredibly fast. — Jensen Huang @ 38:12
主题
GPU 计算 · 摩尔定律 · 超级计算 · 深度学习训练 · 深度学习推理 · Tensor Core · NVSwitch · DGX-2 · HGX-2 · TensorRT · Kubernetes · 实时光线追踪 · 医学影像 · 自动驾驶汽车
要点
- CPU 的扩展已经停滞,这使得 GPU 加速计算成为未来性能提升的关键。
- NVIDIA 正在对整个计算栈(芯片、系统、软件、算法)进行优化,以提供指数级的速度提升。
- 由 NVSwitch 驱动的 DGX-2 就像一个巨大的单一 GPU,用于应对海量的 AI 训练工作负载。
- TensorRT 4 和 Kubernetes 的集成使 NVIDIA GPU 在数据中心的 AI 推理中变得高效且可扩展。
- NVIDIA RTX 将实时光线追踪引入计算机图形学,彻底改变了内容创作和游戏。
- NVIDIA 的平台正在向医学影像(Clara)和自主机器(DRIVE)等垂直领域扩展。