GTC China 2020 Keynote

类别: 中国 Keynote · 年份: 2020 · ▶ 观看

讲者: Ashok Pandey - VP, Operations & Partners, APAC, NVIDIA · Bill Dally - Chief Scientist and SVP of Research, NVIDIA · Greg Estes - VP, Corporate Marketing & Developer Programs, NVIDIA · Jay Puri - EVP, Worldwide Field Operations, NVIDIA · Kimberly Powell - VP, Healthcare, NVIDIA · Raymond Teh - VP, Sales & Marketing, APAC, NVIDIA

Switch language → English

章节 (15)

  • 00:00 · 简介
    • 开场视频展示了 NVIDIA 在各个行业中的影响力。
  • 03:14 · 主题演讲:Ampere 架构与软件栈
    • Bill Dally 介绍了 Ampere A100 GPU,及其 TF32 和结构化稀疏等新特性,以及 CUDA 软件生态系统。
  • 09:21 · 主题演讲:DGX 系统与超级计算
    • 概述 DGX A100、DGX SuperPOD,以及 Selene 超级计算机在 Top500 和 Green500 榜单上的排名。
  • 11:56 · 主题演讲:深度学习性能与 MLPerf
    • 探讨 Tensor Cores 的演进、黄氏定律(Huang’s Law),以及 NVIDIA 在 MLPerf 训练和推理基准测试中的主导地位。
  • 17:28 · 主题演讲:实时图形与光线追踪
    • 展示 RTX DI、RTX GI 和 DLSS 2.0 如何实现照片级的实时渲染。
  • 25:56 · 主题演讲:AI 应用 - GANs、NLP 与推荐系统
    • 探讨生成式对抗网络(GANs)、基于 Jarvis 的对话式 AI、Megatron NLP 以及 Merlin 推荐框架。
  • 35:10 · 主题演讲:医疗保健中的 AI
    • 介绍用于药物发现的 Clara Discovery、基于 Parabricks 的基因组学,以及 AI 在抗击 COVID-19 中的作用。
  • 42:59 · 主题演讲:机器人与自动驾驶汽车
    • 机器人操作、模拟环境中的强化学习,以及用于自动驾驶汽车的 NVIDIA DRIVE 平台的最新进展。
  • 50:18 · 主题演讲:NVIDIA 研究项目
    • 深入探讨未来技术,包括高效推理加速器(RC18、MAGNet)、用于互连的硅光子学,以及 Legate 编程系统。
  • 01:01:00 · 高管座谈会:简介
    • Raymond Teh 介绍高管座谈会成员,讨论 NVIDIA 在中国的业务与战略。
  • 01:10:59 · 座谈会:中国市场的重要性
    • Jay Puri 和 Greg Estes 讨论中国的战略重要性、其庞大的开发者基础以及游戏生态系统。
  • 01:16:45 · 座谈会:医疗保健中的 AI 与 COVID-19 应对
    • Kimberly Powell 解释 AI 和加速计算如何为医疗保健创建一个“计算型全球防御系统”。
  • 01:26:59 · 座谈会:云服务提供商与直播
    • Ashok Pandey 详细介绍了与中国云服务提供商(Alibaba、Tencent、Baidu)的合作,以及 GPU 在蓬勃发展的直播行业中的应用。
  • 01:46:49 · 座谈会:初创公司与 Inception 计划
    • Greg Estes 强调了 NVIDIA 通过 Inception 计划对中国 800 多家 AI 初创公司的支持。
  • 01:50:30 · 座谈会:DGX 战略与合作伙伴生态系统
    • Jay Puri 阐明了 NVIDIA DGX 系统背后的战略,以及它们如何赋能 OEM 合作伙伴构建经过认证的 AI 平台。

产品发布 (8)

  • [03:42] Ampere A100 GPU
    • 数据中心 GPU 架构
    • specs: 7nm,540 亿个晶体管,第三代 Tensor Cores,支持 TF32,多实例 GPU (MIG),结构化稀疏
    • availability: 已上市
  • [09:21] DGX A100
    • AI 系统
    • specs: 8 个 A100 GPU,9 个 Mellanox ConnectX-6 网卡,160 Teraflops FP64 算力
    • availability: 已上市
  • [19:14] RTX DI and RTX GI
    • 渲染技术
    • specs: 使用 ReSTIR 算法的直接光照,使用光照探针实现实时路径追踪的全局光照
    • availability: 在 NVIDIA 图形产品中可用
  • [21:29] DLSS 2.0
    • 深度学习超级采样
    • specs: AI 驱动的图像放大,时间稳定性,跨游戏的通用网络
    • availability: 已上市
  • [31:31] NVIDIA Jarvis
    • 多模态对话式 AI 服务
    • specs: 语音转文本、NLP、文本转语音流水线
    • availability: 已上市
  • [35:50] Triton Inference Server
    • 开源推理服务软件
    • specs: 支持多种框架(TensorFlow、PyTorch、ONNX),动态批处理,并发模型执行
    • availability: 已上市
  • [38:00] Clara Discovery
    • 计算药物发现平台
    • specs: 基因组学 (Parabricks),冷冻电镜 (CryoSPARC),分子对接 (AutoDock),NLP (BioMegatron)
    • availability: 已上市
  • [49:20] DRIVE AGX Orin
    • 自动驾驶汽车计算平台
    • specs: 可扩展,从用于 ADAS 的 10 TOPS (5W) 到用于 L5 级 Robotaxi 的 2,000 TOPS (800W)
    • availability: 已发布

数据 (9)

时间 指标 数值 背景
05:51 晶体管 54 billion Ampere A100 芯片上的晶体管数量。
07:28 TFLOPS 19.5 A100 上的 FP64 Tensor Core 性能。
07:36 TFLOPS 156 A100 上用于深度学习训练的 TF32 Tensor Core 性能。
07:45 PETAOPS 1.25 A100 在稀疏性下的 INT8 推理性能。
10:26 排名 #5 Selene 超级计算机在 Top500 榜单上的排名。
14:18 性能倍数 317x 8 年间单芯片推理性能的增长(黄氏定律)。
01:11:15 开发者 400,000+ 中国注册的 NVIDIA 开发者数量。
01:11:59 CPU 销量 22 billion 每年售出的 ARM CPU 数量。
01:47:38 初创公司 800+ 中国 NVIDIA Inception 计划中的初创公司数量。

Benchmark 主张 (3)

  • [15:10] MLPerf Training: Up to 2.5x
    • vs: Volta V100
    • gain: 在训练基准测试中,A100 比 V100 快达 2.5 倍,横扫所有类别。
  • [16:10] MLPerf Data Center Inference: Up to 237x
    • vs: CPU
    • gain: A100 比 CPU 快达 237 倍,比上一代 T4 快 6-8 倍。
  • [17:00] MLPerf Edge Inference: Leading
    • vs: Centaur
    • gain: Jetson AGX Xavier 和 T4 横扫各个类别,击败了 Centaur 等竞争对手。

客户故事 (4)

  • [01:18:18] Ping An, United Imaging, Infervision
    • 将 Clara 医学影像 COVID AI 技术部署到中国数千家医院。
    • outcome: 为一线医务工作者提供 AI 工具,以做出更好的决策并更快地治疗患者。
  • [01:28:40] Alibaba Cloud, Tencent Cloud, Baidu Cloud
    • 在其云服务中采用了 A100 GPU 架构。
    • outcome: 实现了显著的性价比提升,并支持复杂的 AI 模型。
  • [01:44:50] Taobao
    • 在直播期间使用 GPU 加速计算机视觉和 NLP。
    • outcome: 改善了实时内容理解和用户体验。
  • [01:45:00] Bigo Live
    • 使用 GPU 提升实时内容理解和创作能力。
    • outcome: 增强了直播功能。

关键技术 (6)

  • TensorFloat-32 (TF32): 一种新的数学格式,提供 FP32 的范围和 FP16 的精度,无需更改代码即可加速 AI 训练。
  • Structured Sparsity: 允许神经网络中 4 个权重中的 2 个为零,使数学吞吐量翻倍并降低内存带宽需求。
  • RTX Direct Illumination (RTX DI): 使用 ReSTIR 算法实时渲染数百万个动态光源以及物理上准确的阴影。
  • RTX Global Illumination (RTX GI): 使用光照探针计算间接光的无限次反弹且无漏光,实现实时全局光照。
  • DLSS 2.0: 使用深度神经网络将低分辨率渲染图像放大到高分辨率(例如 4K),同时保持时间稳定性。
  • Silicon Photonics: 使用光代替电信号进行芯片间通信,以更低的功耗提供更高的带宽和更长的传输距离。

现场演示 (6)

  • [18:19] Marbles RTX 技术演示,展示实时路径追踪、柔和阴影和反射。
    • True
  • [23:00] 《死亡搁浅》(Death Stranding)中的 DLSS 2.0 对比,展示原生 4K 与 DLSS 4K 的差异。
    • True
  • [30:09] Maxine 视频会议演示,使用 GANs 通过关键点驱动面部动画,包括映射到卡通虚拟形象。
    • True
  • [32:20] GauGAN 演示,将简单的手绘形状转化为照片级的风景。
    • True
  • [43:30] 机械臂使用黎曼运动策略(Riemannian Motion Policies)避开障碍物并抓取未知物体。
    • True
  • [45:00] 四足机器人在模拟环境中学习行走,并将该技能转移到现实世界中。
    • True

预测 / 承诺 (3)

  • [25:11, 长期] 从长远来看,我们预计计算机图形将由 AI 生成……而不再需要几何体。
  • [50:41, 未来几代] 我们正在寻找一种替代技术来实际输出 GPU 信号……使用光,使用光子学。
  • [54:23, 持续进行] 我们将继续黄氏定律的演进,继续每年将推理性能提升一倍以上。

公司提及 (6)

Google · Huawei · Intel · Xilinx · ARM · Alibaba, Tencent, Baidu

引用 (3)

This curve has come to be known as Huang’s Law, which is that inference performance doubles every year. Actually, we’re more than doubling it every year. — Bill Dally @ 14:23

The future of graphics is AI. In fact, the future of almost everything is AI. — Bill Dally @ 25:55

It’s absolutely what I call the perfect storm for a computational global defense system. — Kimberly Powell @ 01:17:34

主题

Ampere 架构 · 深度学习推理 · 光线追踪 · 生成式 AI · 医疗保健与药物发现 · 机器人技术 · 自动驾驶汽车 · 硅光子学 · 中国市场战略 · ARM 收购 · 云计算 · 初创公司生态系统

要点

  • 在 TF32 和结构化稀疏的驱动下,Ampere A100 GPU 在 AI 训练和推理方面实现了巨大的性能飞跃。
  • NVIDIA 凭借“黄氏定律”超越了摩尔定律,通过架构创新在 8 年内实现了 317 倍的推理性能增长。
  • AI 正在从根本上改变计算机图形学,实现实时路径追踪和 AI 驱动的图像放大(DLSS),未来的图形将完全由 AI 生成。
  • COVID-19 疫情加速了 AI 在医疗保健领域的采用,为药物发现和医学影像创建了一个“计算型全球防御系统”。
  • NVIDIA 正在大力投资硅光子学等未来技术,以克服数据中心互连中的电学带宽限制。
  • 中国市场对 NVIDIA 具有高度的战略意义,这得益于与主要云服务提供商(Alibaba、Tencent、Baidu)的深度合作以及庞大的开发者基础。
  • NVIDIA 计划收购 ARM,旨在将 ARM 的高能效架构引入数据中心,创造一个可替代 x86 的可行方案。