GTC China 2020 Keynote
类别: 中国 Keynote · 年份: 2020 · ▶ 观看
讲者: Ashok Pandey - VP, Operations & Partners, APAC, NVIDIA · Bill Dally - Chief Scientist and SVP of Research, NVIDIA · Greg Estes - VP, Corporate Marketing & Developer Programs, NVIDIA · Jay Puri - EVP, Worldwide Field Operations, NVIDIA · Kimberly Powell - VP, Healthcare, NVIDIA · Raymond Teh - VP, Sales & Marketing, APAC, NVIDIA
章节 (15)
- 00:00 · 简介
- 开场视频展示了 NVIDIA 在各个行业中的影响力。
- 03:14 · 主题演讲:Ampere 架构与软件栈
- Bill Dally 介绍了 Ampere A100 GPU,及其 TF32 和结构化稀疏等新特性,以及 CUDA 软件生态系统。
- 09:21 · 主题演讲:DGX 系统与超级计算
- 概述 DGX A100、DGX SuperPOD,以及 Selene 超级计算机在 Top500 和 Green500 榜单上的排名。
- 11:56 · 主题演讲:深度学习性能与 MLPerf
- 探讨 Tensor Cores 的演进、黄氏定律(Huang’s Law),以及 NVIDIA 在 MLPerf 训练和推理基准测试中的主导地位。
- 17:28 · 主题演讲:实时图形与光线追踪
- 展示 RTX DI、RTX GI 和 DLSS 2.0 如何实现照片级的实时渲染。
- 25:56 · 主题演讲:AI 应用 - GANs、NLP 与推荐系统
- 探讨生成式对抗网络(GANs)、基于 Jarvis 的对话式 AI、Megatron NLP 以及 Merlin 推荐框架。
- 35:10 · 主题演讲:医疗保健中的 AI
- 介绍用于药物发现的 Clara Discovery、基于 Parabricks 的基因组学,以及 AI 在抗击 COVID-19 中的作用。
- 42:59 · 主题演讲:机器人与自动驾驶汽车
- 机器人操作、模拟环境中的强化学习,以及用于自动驾驶汽车的 NVIDIA DRIVE 平台的最新进展。
- 50:18 · 主题演讲:NVIDIA 研究项目
- 深入探讨未来技术,包括高效推理加速器(RC18、MAGNet)、用于互连的硅光子学,以及 Legate 编程系统。
- 01:01:00 · 高管座谈会:简介
- Raymond Teh 介绍高管座谈会成员,讨论 NVIDIA 在中国的业务与战略。
- 01:10:59 · 座谈会:中国市场的重要性
- Jay Puri 和 Greg Estes 讨论中国的战略重要性、其庞大的开发者基础以及游戏生态系统。
- 01:16:45 · 座谈会:医疗保健中的 AI 与 COVID-19 应对
- Kimberly Powell 解释 AI 和加速计算如何为医疗保健创建一个“计算型全球防御系统”。
- 01:26:59 · 座谈会:云服务提供商与直播
- Ashok Pandey 详细介绍了与中国云服务提供商(Alibaba、Tencent、Baidu)的合作,以及 GPU 在蓬勃发展的直播行业中的应用。
- 01:46:49 · 座谈会:初创公司与 Inception 计划
- Greg Estes 强调了 NVIDIA 通过 Inception 计划对中国 800 多家 AI 初创公司的支持。
- 01:50:30 · 座谈会:DGX 战略与合作伙伴生态系统
- Jay Puri 阐明了 NVIDIA DGX 系统背后的战略,以及它们如何赋能 OEM 合作伙伴构建经过认证的 AI 平台。
产品发布 (8)
- [03:42] Ampere A100 GPU
- 数据中心 GPU 架构
- specs: 7nm,540 亿个晶体管,第三代 Tensor Cores,支持 TF32,多实例 GPU (MIG),结构化稀疏
- availability: 已上市
- [09:21] DGX A100
- AI 系统
- specs: 8 个 A100 GPU,9 个 Mellanox ConnectX-6 网卡,160 Teraflops FP64 算力
- availability: 已上市
- [19:14] RTX DI and RTX GI
- 渲染技术
- specs: 使用 ReSTIR 算法的直接光照,使用光照探针实现实时路径追踪的全局光照
- availability: 在 NVIDIA 图形产品中可用
- [21:29] DLSS 2.0
- 深度学习超级采样
- specs: AI 驱动的图像放大,时间稳定性,跨游戏的通用网络
- availability: 已上市
- [31:31] NVIDIA Jarvis
- 多模态对话式 AI 服务
- specs: 语音转文本、NLP、文本转语音流水线
- availability: 已上市
- [35:50] Triton Inference Server
- 开源推理服务软件
- specs: 支持多种框架(TensorFlow、PyTorch、ONNX),动态批处理,并发模型执行
- availability: 已上市
- [38:00] Clara Discovery
- 计算药物发现平台
- specs: 基因组学 (Parabricks),冷冻电镜 (CryoSPARC),分子对接 (AutoDock),NLP (BioMegatron)
- availability: 已上市
- [49:20] DRIVE AGX Orin
- 自动驾驶汽车计算平台
- specs: 可扩展,从用于 ADAS 的 10 TOPS (5W) 到用于 L5 级 Robotaxi 的 2,000 TOPS (800W)
- availability: 已发布
数据 (9)
| 时间 | 指标 | 数值 | 背景 |
|---|---|---|---|
| 05:51 | 晶体管 | 54 billion | Ampere A100 芯片上的晶体管数量。 |
| 07:28 | TFLOPS | 19.5 | A100 上的 FP64 Tensor Core 性能。 |
| 07:36 | TFLOPS | 156 | A100 上用于深度学习训练的 TF32 Tensor Core 性能。 |
| 07:45 | PETAOPS | 1.25 | A100 在稀疏性下的 INT8 推理性能。 |
| 10:26 | 排名 | #5 | Selene 超级计算机在 Top500 榜单上的排名。 |
| 14:18 | 性能倍数 | 317x | 8 年间单芯片推理性能的增长(黄氏定律)。 |
| 01:11:15 | 开发者 | 400,000+ | 中国注册的 NVIDIA 开发者数量。 |
| 01:11:59 | CPU 销量 | 22 billion | 每年售出的 ARM CPU 数量。 |
| 01:47:38 | 初创公司 | 800+ | 中国 NVIDIA Inception 计划中的初创公司数量。 |
Benchmark 主张 (3)
- [15:10] MLPerf Training: Up to 2.5x
- vs: Volta V100
- gain: 在训练基准测试中,A100 比 V100 快达 2.5 倍,横扫所有类别。
- [16:10] MLPerf Data Center Inference: Up to 237x
- vs: CPU
- gain: A100 比 CPU 快达 237 倍,比上一代 T4 快 6-8 倍。
- [17:00] MLPerf Edge Inference: Leading
- vs: Centaur
- gain: Jetson AGX Xavier 和 T4 横扫各个类别,击败了 Centaur 等竞争对手。
客户故事 (4)
- [01:18:18] Ping An, United Imaging, Infervision
- 将 Clara 医学影像 COVID AI 技术部署到中国数千家医院。
- outcome: 为一线医务工作者提供 AI 工具,以做出更好的决策并更快地治疗患者。
- [01:28:40] Alibaba Cloud, Tencent Cloud, Baidu Cloud
- 在其云服务中采用了 A100 GPU 架构。
- outcome: 实现了显著的性价比提升,并支持复杂的 AI 模型。
- [01:44:50] Taobao
- 在直播期间使用 GPU 加速计算机视觉和 NLP。
- outcome: 改善了实时内容理解和用户体验。
- [01:45:00] Bigo Live
- 使用 GPU 提升实时内容理解和创作能力。
- outcome: 增强了直播功能。
关键技术 (6)
- TensorFloat-32 (TF32): 一种新的数学格式,提供 FP32 的范围和 FP16 的精度,无需更改代码即可加速 AI 训练。
- Structured Sparsity: 允许神经网络中 4 个权重中的 2 个为零,使数学吞吐量翻倍并降低内存带宽需求。
- RTX Direct Illumination (RTX DI): 使用 ReSTIR 算法实时渲染数百万个动态光源以及物理上准确的阴影。
- RTX Global Illumination (RTX GI): 使用光照探针计算间接光的无限次反弹且无漏光,实现实时全局光照。
- DLSS 2.0: 使用深度神经网络将低分辨率渲染图像放大到高分辨率(例如 4K),同时保持时间稳定性。
- Silicon Photonics: 使用光代替电信号进行芯片间通信,以更低的功耗提供更高的带宽和更长的传输距离。
现场演示 (6)
- [18:19] Marbles RTX 技术演示,展示实时路径追踪、柔和阴影和反射。
- True
- [23:00] 《死亡搁浅》(Death Stranding)中的 DLSS 2.0 对比,展示原生 4K 与 DLSS 4K 的差异。
- True
- [30:09] Maxine 视频会议演示,使用 GANs 通过关键点驱动面部动画,包括映射到卡通虚拟形象。
- True
- [32:20] GauGAN 演示,将简单的手绘形状转化为照片级的风景。
- True
- [43:30] 机械臂使用黎曼运动策略(Riemannian Motion Policies)避开障碍物并抓取未知物体。
- True
- [45:00] 四足机器人在模拟环境中学习行走,并将该技能转移到现实世界中。
- True
预测 / 承诺 (3)
- [25:11, 长期] 从长远来看,我们预计计算机图形将由 AI 生成……而不再需要几何体。
- [50:41, 未来几代] 我们正在寻找一种替代技术来实际输出 GPU 信号……使用光,使用光子学。
- [54:23, 持续进行] 我们将继续黄氏定律的演进,继续每年将推理性能提升一倍以上。
公司提及 (6)
Google · Huawei · Intel · Xilinx · ARM · Alibaba, Tencent, Baidu
引用 (3)
This curve has come to be known as Huang’s Law, which is that inference performance doubles every year. Actually, we’re more than doubling it every year. — Bill Dally @ 14:23
The future of graphics is AI. In fact, the future of almost everything is AI. — Bill Dally @ 25:55
It’s absolutely what I call the perfect storm for a computational global defense system. — Kimberly Powell @ 01:17:34
主题
Ampere 架构 · 深度学习推理 · 光线追踪 · 生成式 AI · 医疗保健与药物发现 · 机器人技术 · 自动驾驶汽车 · 硅光子学 · 中国市场战略 · ARM 收购 · 云计算 · 初创公司生态系统
要点
- 在 TF32 和结构化稀疏的驱动下,Ampere A100 GPU 在 AI 训练和推理方面实现了巨大的性能飞跃。
- NVIDIA 凭借“黄氏定律”超越了摩尔定律,通过架构创新在 8 年内实现了 317 倍的推理性能增长。
- AI 正在从根本上改变计算机图形学,实现实时路径追踪和 AI 驱动的图像放大(DLSS),未来的图形将完全由 AI 生成。
- COVID-19 疫情加速了 AI 在医疗保健领域的采用,为药物发现和医学影像创建了一个“计算型全球防御系统”。
- NVIDIA 正在大力投资硅光子学等未来技术,以克服数据中心互连中的电学带宽限制。
- 中国市场对 NVIDIA 具有高度的战略意义,这得益于与主要云服务提供商(Alibaba、Tencent、Baidu)的深度合作以及庞大的开发者基础。
- NVIDIA 计划收购 ARM,旨在将 ARM 的高能效架构引入数据中心,创造一个可替代 x86 的可行方案。