GTC China 2020 Keynote

类别: 中国 Keynote · 年份: 2020 · ▶ 观看

讲者: Ashok Pandey - VP, Operations & Partners, APAC, NVIDIA · Bill Dally - Chief Scientist and SVP of Research, NVIDIA · Greg Estes - VP, Corporate Marketing & Developer Programs, NVIDIA · Jay Puri - EVP, Worldwide Field Operations, NVIDIA · Kimberly Powell - VP, Healthcare, NVIDIA · Raymond Teh - VP, Sales & Marketing, APAC, NVIDIA

Switch language → English

章节 (15)

00:00 · 简介
- 开场视频展示了 NVIDIA 在各个行业中的影响力。
03:14 · 主题演讲：Ampere 架构与软件栈
- Bill Dally 介绍了 Ampere A100 GPU，及其 TF32 和结构化稀疏等新特性，以及 CUDA 软件生态系统。
09:21 · 主题演讲：DGX 系统与超级计算
- 概述 DGX A100、DGX SuperPOD，以及 Selene 超级计算机在 Top500 和 Green500 榜单上的排名。
11:56 · 主题演讲：深度学习性能与 MLPerf
- 探讨 Tensor Cores 的演进、黄氏定律（Huang’s Law），以及 NVIDIA 在 MLPerf 训练和推理基准测试中的主导地位。
17:28 · 主题演讲：实时图形与光线追踪
- 展示 RTX DI、RTX GI 和 DLSS 2.0 如何实现照片级的实时渲染。
25:56 · 主题演讲：AI 应用 - GANs、NLP 与推荐系统
- 探讨生成式对抗网络（GANs）、基于 Jarvis 的对话式 AI、Megatron NLP 以及 Merlin 推荐框架。
35:10 · 主题演讲：医疗保健中的 AI
- 介绍用于药物发现的 Clara Discovery、基于 Parabricks 的基因组学，以及 AI 在抗击 COVID-19 中的作用。
42:59 · 主题演讲：机器人与自动驾驶汽车
- 机器人操作、模拟环境中的强化学习，以及用于自动驾驶汽车的 NVIDIA DRIVE 平台的最新进展。
50:18 · 主题演讲：NVIDIA 研究项目
- 深入探讨未来技术，包括高效推理加速器（RC18、MAGNet）、用于互连的硅光子学，以及 Legate 编程系统。
01:01:00 · 高管座谈会：简介
- Raymond Teh 介绍高管座谈会成员，讨论 NVIDIA 在中国的业务与战略。
01:10:59 · 座谈会：中国市场的重要性
- Jay Puri 和 Greg Estes 讨论中国的战略重要性、其庞大的开发者基础以及游戏生态系统。
01:16:45 · 座谈会：医疗保健中的 AI 与 COVID-19 应对
- Kimberly Powell 解释 AI 和加速计算如何为医疗保健创建一个“计算型全球防御系统”。
01:26:59 · 座谈会：云服务提供商与直播
- Ashok Pandey 详细介绍了与中国云服务提供商（Alibaba、Tencent、Baidu）的合作，以及 GPU 在蓬勃发展的直播行业中的应用。
01:46:49 · 座谈会：初创公司与 Inception 计划
- Greg Estes 强调了 NVIDIA 通过 Inception 计划对中国 800 多家 AI 初创公司的支持。
01:50:30 · 座谈会：DGX 战略与合作伙伴生态系统
- Jay Puri 阐明了 NVIDIA DGX 系统背后的战略，以及它们如何赋能 OEM 合作伙伴构建经过认证的 AI 平台。

产品发布 (8)

[03:42] Ampere A100 GPU
- 数据中心 GPU 架构
- specs: 7nm，540 亿个晶体管，第三代 Tensor Cores，支持 TF32，多实例 GPU (MIG)，结构化稀疏
- availability: 已上市
[09:21] DGX A100
- AI 系统
- specs: 8 个 A100 GPU，9 个 Mellanox ConnectX-6 网卡，160 Teraflops FP64 算力
- availability: 已上市
[19:14] RTX DI and RTX GI
- 渲染技术
- specs: 使用 ReSTIR 算法的直接光照，使用光照探针实现实时路径追踪的全局光照
- availability: 在 NVIDIA 图形产品中可用
[21:29] DLSS 2.0
- 深度学习超级采样
- specs: AI 驱动的图像放大，时间稳定性，跨游戏的通用网络
- availability: 已上市
[31:31] NVIDIA Jarvis
- 多模态对话式 AI 服务
- specs: 语音转文本、NLP、文本转语音流水线
- availability: 已上市
[35:50] Triton Inference Server
- 开源推理服务软件
- specs: 支持多种框架（TensorFlow、PyTorch、ONNX），动态批处理，并发模型执行
- availability: 已上市
[38:00] Clara Discovery
- 计算药物发现平台
- specs: 基因组学 (Parabricks)，冷冻电镜 (CryoSPARC)，分子对接 (AutoDock)，NLP (BioMegatron)
- availability: 已上市
[49:20] DRIVE AGX Orin
- 自动驾驶汽车计算平台
- specs: 可扩展，从用于 ADAS 的 10 TOPS (5W) 到用于 L5 级 Robotaxi 的 2,000 TOPS (800W)
- availability: 已发布

数据 (9)

时间	指标	数值	背景
05:51	晶体管	54 billion	Ampere A100 芯片上的晶体管数量。
07:28	TFLOPS	19.5	A100 上的 FP64 Tensor Core 性能。
07:36	TFLOPS	156	A100 上用于深度学习训练的 TF32 Tensor Core 性能。
07:45	PETAOPS	1.25	A100 在稀疏性下的 INT8 推理性能。
10:26	排名	#5	Selene 超级计算机在 Top500 榜单上的排名。
14:18	性能倍数	317x	8 年间单芯片推理性能的增长（黄氏定律）。
01:11:15	开发者	400,000+	中国注册的 NVIDIA 开发者数量。
01:11:59	CPU 销量	22 billion	每年售出的 ARM CPU 数量。
01:47:38	初创公司	800+	中国 NVIDIA Inception 计划中的初创公司数量。

Benchmark 主张 (3)

[15:10] MLPerf Training: Up to 2.5x
- vs: Volta V100
- gain: 在训练基准测试中，A100 比 V100 快达 2.5 倍，横扫所有类别。
[16:10] MLPerf Data Center Inference: Up to 237x
- vs: CPU
- gain: A100 比 CPU 快达 237 倍，比上一代 T4 快 6-8 倍。
[17:00] MLPerf Edge Inference: Leading
- vs: Centaur
- gain: Jetson AGX Xavier 和 T4 横扫各个类别，击败了 Centaur 等竞争对手。

客户故事 (4)

[01:18:18] Ping An, United Imaging, Infervision
- 将 Clara 医学影像 COVID AI 技术部署到中国数千家医院。
- outcome: 为一线医务工作者提供 AI 工具，以做出更好的决策并更快地治疗患者。
[01:28:40] Alibaba Cloud, Tencent Cloud, Baidu Cloud
- 在其云服务中采用了 A100 GPU 架构。
- outcome: 实现了显著的性价比提升，并支持复杂的 AI 模型。
[01:44:50] Taobao
- 在直播期间使用 GPU 加速计算机视觉和 NLP。
- outcome: 改善了实时内容理解和用户体验。
[01:45:00] Bigo Live
- 使用 GPU 提升实时内容理解和创作能力。
- outcome: 增强了直播功能。

关键技术 (6)

TensorFloat-32 (TF32): 一种新的数学格式，提供 FP32 的范围和 FP16 的精度，无需更改代码即可加速 AI 训练。
Structured Sparsity: 允许神经网络中 4 个权重中的 2 个为零，使数学吞吐量翻倍并降低内存带宽需求。
RTX Direct Illumination (RTX DI): 使用 ReSTIR 算法实时渲染数百万个动态光源以及物理上准确的阴影。
RTX Global Illumination (RTX GI): 使用光照探针计算间接光的无限次反弹且无漏光，实现实时全局光照。
DLSS 2.0: 使用深度神经网络将低分辨率渲染图像放大到高分辨率（例如 4K），同时保持时间稳定性。
Silicon Photonics: 使用光代替电信号进行芯片间通信，以更低的功耗提供更高的带宽和更长的传输距离。

现场演示 (6)

[18:19] Marbles RTX 技术演示，展示实时路径追踪、柔和阴影和反射。
- True
[23:00] 《死亡搁浅》（Death Stranding）中的 DLSS 2.0 对比，展示原生 4K 与 DLSS 4K 的差异。
- True
[30:09] Maxine 视频会议演示，使用 GANs 通过关键点驱动面部动画，包括映射到卡通虚拟形象。
- True
[32:20] GauGAN 演示，将简单的手绘形状转化为照片级的风景。
- True
[43:30] 机械臂使用黎曼运动策略（Riemannian Motion Policies）避开障碍物并抓取未知物体。
- True
[45:00] 四足机器人在模拟环境中学习行走，并将该技能转移到现实世界中。
- True

预测 / 承诺 (3)

[25:11, 长期] 从长远来看，我们预计计算机图形将由 AI 生成……而不再需要几何体。
[50:41, 未来几代] 我们正在寻找一种替代技术来实际输出 GPU 信号……使用光，使用光子学。
[54:23, 持续进行] 我们将继续黄氏定律的演进，继续每年将推理性能提升一倍以上。

公司提及 (6)

Google · Huawei · Intel · Xilinx · ARM · Alibaba, Tencent, Baidu

引用 (3)

This curve has come to be known as Huang’s Law, which is that inference performance doubles every year. Actually, we’re more than doubling it every year. — Bill Dally @ 14:23

The future of graphics is AI. In fact, the future of almost everything is AI. — Bill Dally @ 25:55

It’s absolutely what I call the perfect storm for a computational global defense system. — Kimberly Powell @ 01:17:34

主题

Ampere 架构 · 深度学习推理 · 光线追踪 · 生成式 AI · 医疗保健与药物发现 · 机器人技术 · 自动驾驶汽车 · 硅光子学 · 中国市场战略 · ARM 收购 · 云计算 · 初创公司生态系统

要点

在 TF32 和结构化稀疏的驱动下，Ampere A100 GPU 在 AI 训练和推理方面实现了巨大的性能飞跃。
NVIDIA 凭借“黄氏定律”超越了摩尔定律，通过架构创新在 8 年内实现了 317 倍的推理性能增长。
AI 正在从根本上改变计算机图形学，实现实时路径追踪和 AI 驱动的图像放大（DLSS），未来的图形将完全由 AI 生成。
COVID-19 疫情加速了 AI 在医疗保健领域的采用，为药物发现和医学影像创建了一个“计算型全球防御系统”。
NVIDIA 正在大力投资硅光子学等未来技术，以克服数据中心互连中的电学带宽限制。
中国市场对 NVIDIA 具有高度的战略意义，这得益于与主要云服务提供商（Alibaba、Tencent、Baidu）的深度合作以及庞大的开发者基础。
NVIDIA 计划收购 ARM，旨在将 ARM 的高能效架构引入数据中心，创造一个可替代 x86 的可行方案。