GTC Taiwan Jensen Keynote

类别: 台湾 Keynote · 年份: 2018 · ▶ 观看

Switch language → English

章节 (22)

  • 00:00 · 开场介绍
    • Jensen Huang 欢迎观众参加 GTC Taiwan 2018。
  • 01:06 · GPU 计算的崛起
    • 讨论摩尔定律的终结以及 GPU 加速计算的必要性。
  • 04:08 · 计算鸿沟
    • 强调未来仅靠 CPU 无法满足的对计算能力的巨大需求。
  • 06:50 · NVIDIA 加速计算栈
    • 解释 NVIDIA 从架构到应用程序的全栈优化方法。
  • 13:20 · GPU 加速的 HPC 集群
    • 在成本、空间和功耗方面比较传统 CPU 集群与 GPU 集群。
  • 19:40 · AI 训练需求
    • 展示训练神经网络所需计算量的指数级增长。
  • 23:20 · Tensor Core GPU
    • 介绍 Volta 架构及其对 HPC 和 AI 计算的融合。
  • 27:20 · NVSwitch
    • 揭晓允许多个 GPU 作为一个整体运行的高速互连技术。
  • 29:30 · 发布 DGX-2
    • 介绍世界上最大的 GPU 系统 DGX-2。
  • 35:20 · DGX-2 实体展示
    • Jensen Huang 在舞台上亲自展示重达 350 磅的 DGX-2 系统。
  • 37:30 · 6 个月内实现 10 倍性能提升
    • 展示通过全栈优化实现的快速性能提升。
  • 44:30 · 5 项速度纪录
    • 强调创纪录的 AI 训练和推理性能指标。
  • 46:30 · AI 推理与 TensorRT 4
    • 重点讨论 AI 推理的挑战并介绍 TensorRT 4。
  • 57:00 · NVIDIA GPU 上的 Kubernetes
    • 宣布 Kubernetes 支持 GPU,以横向扩展 AI 工作负载。
  • 01:01:00 · PLASTER 框架
    • 介绍一个用于评估推理性能的框架。
  • 01:10:00 · 推理演示
    • 图像识别和横向扩展推理的现场演示。
  • 01:20:00 · 发布 HGX-2
    • 揭晓面向超大规模数据中心的 HGX-2 云服务器平台。
  • 01:30:00 · NVIDIA RTX
    • 介绍用于计算机图形的实时光线追踪技术。
  • 01:43:00 · NVIDIA Clara
    • 宣布推出 Clara 医学影像超级计算机平台。
  • 01:56:00 · NVIDIA Metropolis
    • 讨论智能安全城市的 AI 应用。
  • 02:01:00 · NVIDIA DRIVE 与自动驾驶汽车
    • 概述自动驾驶的端到端平台。
  • 02:06:00 · Project We-kanda 演示
    • 现场 VR 远程呈现驾驶演示。

产品发布 (6)

  • [29:30] DGX-2
    • 世界上最大的 GPU 系统,结合了 16 个 Volta GPU。
    • specs: 2 PFLOPS,512GB HBM2 内存,10kW 功耗,350 磅。
    • availability: $399,000,第三季度上市。
  • [46:30] TensorRT 4
    • 用于深度学习推理的优化编译器。
    • specs: 与 TensorFlow、ONNX 集成,并加速各种网络类型。
    • availability: 未明确说明。
  • [57:00] Kubernetes on NVIDIA GPUs
    • 对 NVIDIA GPU 的容器编排支持。
    • specs: 允许跨数据中心和云横向扩展 AI 工作负载。
    • availability: 未明确说明。
  • [01:20:00] HGX-2
    • 云服务器平台基板。
    • specs: 融合 HPC 和 AI 计算,2 PFLOPS,使用 NVSwitch。
    • availability: 未明确说明。
  • [01:30:00] NVIDIA RTX
    • 实时光线追踪技术。
    • specs: 结合了可编程着色、光线追踪和 AI。
    • availability: 未明确说明。
  • [01:43:00] NVIDIA Clara
    • 医学影像超级计算机平台。
    • specs: 虚拟化医学影像仪器,使用迭代重建和 AI。
    • availability: 未明确说明。

数据 (8)

时间 指标 数值 背景
01:25 性能提升 100,000x 摩尔定律放缓前 25 年间 CPU 的性能提升。
02:50 CUDA 开发者数量 850,000 全球 CUDA 开发者数量。
05:45 计算需求 1,000 Exaflops 预计到 2028 年的计算需求。
20:37 计算需求增长 300,000x 5 年内 AI 训练所需计算量的增长(OpenAI 数据)。
33:45 性能 2 PFLOPS DGX-2 系统的计算能力。
39:31 价格 $399,000 DGX-2 系统的成本。
45:00 训练速度 15,500 images/sec DGX-2 训练 ResNet-50 的纪录。
45:20 推理延迟 1.1 milliseconds ResNet-50 推理的延迟纪录。

Benchmark 主张 (3)

  • [40:30] DGX-2 vs 传统超大规模集群: 1 台 DGX-2
    • vs: 300 台双路 CPU 服务器
    • gain: 1/8 的成本,1/60 的空间,1/18 的功耗。
  • [37:30] DGX-2 vs DGX-1 训练时间: 1.5 天
    • vs: 15 天
    • gain: 仅通过 6 个月的全栈优化,训练速度就提高了 10 倍。
  • [01:08:00] TensorRT 4 推理加速: 高达 190x
    • vs: 仅 CPU 推理
    • gain: 图像/视频 190x,NLP 50x,推荐系统 45x。

客户故事 (2)

  • [15:25] 量子化学家
    • 使用消费级 GeForce GPU 上的 CUDA 运行量子化学模拟。
    • outcome: 实现了巨大的速度提升,使他能够在有生之年完成毕生的工作,将其描述为一台“时间机器”。
  • [19:57] OpenAI
    • 测量了训练最先进神经网络所需的计算量。
    • outcome: 发现在 5 年内计算需求增长了 300,000 倍。

关键技术 (6)

  • CUDA: NVIDIA 的并行计算平台和编程模型。
  • Tensor Core: 一种融合了 HPC 和 AI 计算的专用核心,执行混合精度矩阵数学运算。
  • NVSwitch: 一种高速互连交换机,允许多个 GPU 以极高的带宽进行通信。
  • TensorRT: 用于深度学习推理的优化编译器和运行时。
  • Kubernetes: 一个用于自动部署、扩展和管理容器化应用程序的开源系统。
  • RTX: NVIDIA 的实时光线追踪技术,结合了光栅化、光线追踪和 AI。

现场演示 (5)

  • [01:10:00] 花卉图像识别推理,比较 CPU 与 GPU 的性能。
    • True
  • [01:16:00] 使用 Kubernetes 动态添加 GPU 节点以处理增加的负载的横向扩展 AI 推理。
    • True
  • [01:38:00] 《星球大战:反射》演示,展示了使用 RTX 技术的实时光线追踪。
    • True
  • [01:46:00] Clara 医学影像演示,比较 CPU 与 GPU 对 CT 扫描的迭代重建。
    • True
  • [02:01:00] Project We-kanda:一个 VR 远程呈现演示,远程驾驶微型汽车和真实汽车。
    • True

预测 / 承诺 (3)

  • [04:57, 10 years] 在未来 10 年内,计算需求将增长 100 倍以上。
  • [16:45, 未来] 未来的每一台超级计算机都将被加速。
  • [01:51:50, 未来] 所有移动的物体都将是自动驾驶的。

公司提及 (5)

TSMC · Google (TensorFlow) · Quanta, Wistron, Foxconn, Inventec · Epic Games, ILM · GE Healthcare, Philips, Siemens, Canon

引用 (3)

The more you buy, the more you save. — Jensen Huang @ 14:38

We created for him a time machine. — Jensen Huang @ 16:14

There is a new law in town… if you optimize across the entire stack, the performance improvement you can achieve is incredibly fast. — Jensen Huang @ 38:12

主题

GPU 计算 · 摩尔定律 · 超级计算 · 深度学习训练 · 深度学习推理 · Tensor Core · NVSwitch · DGX-2 · HGX-2 · TensorRT · Kubernetes · 实时光线追踪 · 医学影像 · 自动驾驶汽车

要点

  • CPU 的扩展已经停滞,这使得 GPU 加速计算成为未来性能提升的关键。
  • NVIDIA 正在对整个计算栈(芯片、系统、软件、算法)进行优化,以提供指数级的速度提升。
  • 由 NVSwitch 驱动的 DGX-2 就像一个巨大的单一 GPU,用于应对海量的 AI 训练工作负载。
  • TensorRT 4 和 Kubernetes 的集成使 NVIDIA GPU 在数据中心的 AI 推理中变得高效且可扩展。
  • NVIDIA RTX 将实时光线追踪引入计算机图形学,彻底改变了内容创作和游戏。
  • NVIDIA 的平台正在向医学影像(Clara)和自主机器(DRIVE)等垂直领域扩展。