GTC China (early) Jensen Keynote
类别: 中国 Keynote · 年份: 2018 · ▶ 观看
章节 (11)
- 00:00 · 介绍与愿景
- 开场视频以及 Jensen Huang 对创纪录的 GTC China 大会的介绍。
- 03:50 · 重塑计算机图形学
- 介绍 Turing 架构、RT Cores、Tensor Cores 以及实时光线追踪技术。
- 17:10 · 深度学习超级采样 (DLSS)
- 解释 Tensor Cores 如何使 DLSS 能够提升图像质量和性能。
- 27:00 · 计算的未来之路
- 探讨摩尔定律的终结以及对全栈加速计算的需求。
- 44:20 · AI 改变计算
- AI 如何改变高性能计算 (HPC) 和超大规模数据中心的格局。
- 50:30 · NVIDIA HGX-2
- 介绍用于大规模 HPC 和 AI 训练的 HGX-2 平台。
- 58:00 · NVIDIA T4 Cloud GPU 与 TensorRT
- 发布用于超大规模 AI 推理的 T4 GPU 和 TensorRT Inference Server。
- 78:10 · RAPIDS:加速数据科学
- 介绍用于 GPU 加速机器学习和数据分析的 RAPIDS 开源库。
- 97:40 · AI 自动化世界
- 向自主机器、机器人技术的过渡,以及 Xavier SoC 的介绍。
- 100:40 · NVIDIA AGX 平台
- 特定领域 AI 平台概述:Clara(医疗)、Metropolis(城市)、Isaac(机器人)和 DRIVE(汽车)。
- 107:20 · NVIDIA DRIVE 与自动驾驶汽车
- DRIVE AV 平台的最新进展,以及宣布与中国汽车制造商和出行服务商的合作伙伴关系。
产品发布 (7)
- [03:50] Turing Architecture
- 采用用于光线追踪的 RT Cores 和用于 AI 的 Tensor Cores 的全新 GPU 架构。
- specs: 10 Giga Rays, 14 TFLOPS, 114 TFLOPS Tensor Core
- availability: N/A
- [20:50] RTX 2070
- 基于 Turing 架构的消费级显卡。
- specs: 比 Pascal 1080 Ti 更快
- availability: $499
- [50:30] NVIDIA HGX-2
- 用于 HPC 的 AI 和数据分析平台。
- specs: 16 V100 GPUs, 2 PFLOPS, 512GB HBM2 memory, 80,000 CUDA cores
- availability: N/A
- [58:00] NVIDIA T4 Cloud GPU
- 面向超大规模数据中心的通用 GPU,专为推理优化。
- specs: 70W, 65 TFLOPS FP16, 130 TOPS INT8, 260 TOPS INT4
- availability: N/A
- [61:30] TensorRT Inference Server
- 开源的容器化推理微服务。
- specs: 支持多种框架,在 Kubernetes 上运行,最大化 GPU 利用率
- availability: 现已上市
- [78:10] RAPIDS
- 开源的数据处理和机器学习库套件。
- specs: cuDF(类似 Pandas)、cuML(类似 Scikit-Learn)、cuGraph,基于 Apache Arrow 构建
- availability: 开源
- [98:10] Xavier
- 全球首款专为自主机器设计的 AI 计算处理器。
- specs: 90亿个晶体管,350mm2,12nFFN,30 TOPS,30W
- availability: 已全面投产
数据 (6)
| 时间 | 指标 | 数值 | 背景 |
|---|---|---|---|
| 08:30 | TFLOPS | 114 | Turing 架构 Tensor Core 性能。 |
| 20:50 | $ | 499 | RTX 2070 GPU 的价格。 |
| 35:10 | 超级计算机 | 127 | TOP500 榜单上 NVIDIA GPU 系统的数量。 |
| 50:30 | PFLOPS | 2 | HGX-2 平台的性能。 |
| 59:30 | TOPS | 260 | T4 Cloud GPU 的 INT4 性能。 |
| 98:10 | 晶体管 | 9 Billion | Xavier SoC 中的晶体管数量。 |
Benchmark 主张 (3)
- [18:50] Ray Tracing + DLSS Performance: RTX 2070
- vs: GTX 1080 Ti
- gain: 性能提升 3.5 倍。
- [58:10] Inference Performance: T4 GPU
- vs: CPU
- gain: 推理性能提升高达 40 倍。
- [87:40] Data Science Workflow (ETL + ML): 1 DGX-2
- vs: 20 CPU Nodes
- gain: 将处理时间从数小时缩短至数分钟(加速 50 倍)。
客户故事 (5)
- [09:00] NetEase
- 将 RTX 光线追踪集成到其游戏 ‘Justice’ 中。
- outcome: 打造了中国首款 RTX 游戏,具有逼真的反射和光照效果。
- [19:20] Kingsoft
- 将 DLSS 集成到其游戏 ‘JX3’ 中。
- outcome: 打造了中国首款 DLSS 加速游戏,性能提升 1.8 倍。
- [91:00] BGI
- 使用 RAPIDS XGBoost 进行癌症免疫疗法和正常细胞分类。
- outcome: 与 CPU 相比,处理速度提升了 10 倍。
- [105:00] JD.com, Meituan, Cainiao
- 为其自动配送机器人选择了 Jetson AGX Xavier。
- outcome: 为最后一英里配送物流实现了复杂的 AI 处理。
- [118:20] FAW, Full Truck Alliance, Plus.ai
- 合作开发使用 NVIDIA DRIVE 的自动驾驶卡车叫车服务。
- outcome: 目标在 2021 年投入生产,以解决司机短缺问题并降低成本。
关键技术 (4)
- RT Core: Turing GPU 上的专用硬件,用于加速实时光线追踪计算。
- DLSS (Deep Learning Super Sampling): 利用 Tensor Cores 和深度学习从低分辨率输入生成高分辨率图像,从而提高帧率。
- TensorRT Inference Server: 一种容器化微服务,通过并发运行多个模型来最大化 GPU 利用率。
- RAPIDS: 开源库,允许数据科学家完全在 GPU 上执行端到端的数据科学和分析流水线。
现场演示 (6)
- [09:40] 游戏 ‘Justice’ 中的实时光线追踪演示,展示了反射和光照效果。
- True
- [21:50] 使用 Turing 实时渲染的 Porsche 911 Speedster Concept。
- True
- [65:00] T4 Inference Server 实时每秒对数千张花卉图像进行分类。
- True
- [86:20] RAPIDS 将抵押贷款风险分析工作流从 CPU 上的数小时加速到 GPU 上的数分钟。
- True
- [111:30] NVIDIA DRIVE AV 软件栈在高速公路上自主导航汽车。
- True
- [123:00] 实时渲染的 Project Sol 电影级演示,展示了先进的机器人技术和图形效果。
- True
预测 / 承诺 (3)
- [27:00, 当前及持续] 摩尔定律已经终结,需要采用全栈优化方法来继续提升计算性能。
- [38:10, 当前及持续] AI 正在使世界自动化,影响从医疗保健到交通运输和制造业的各个行业。
- [97:40, 未来] 在未来,AI 将赋能所有移动机器,催生数十亿的自主机器人和自动驾驶汽车。
公司提及 (3)
Baidu, Tencent, Alibaba, Huawei, Inspur, Lenovo, Sugon, QCT, Supermicro · Baidu Cloud, Tencent, JD Cloud, iFLYTEK · Volvo Cars
引用 (2)
Moore’s Law has come to an end. — Jensen Huang @ 27:00
The more you buy, the more you save. — Jensen Huang @ 90:40
主题
Turing 架构 · 光线追踪 · DLSS · 高性能计算 (HPC) · 超大规模数据中心 · T4 GPU · TensorRT · RAPIDS · 数据科学 · Xavier SoC · 自主机器 · NVIDIA DRIVE · 自动驾驶汽车
要点
- NVIDIA 正在通过 Turing 架构重塑计算机图形学,结合光线追踪和 AI (DLSS) 实现照片级逼真的实时渲染。
- 随着摩尔定律的终结,NVIDIA 提倡采用全栈加速计算方法来继续推动性能提升。
- HGX-2 平台统一了 HPC 和 AI 工作负载,为复杂的模拟和深度学习提供海量计算能力。
- T4 Cloud GPU 和 TensorRT Inference Server 旨在超大规模数据中心中高效扩展 AI 推理。
- RAPIDS 将 GPU 加速引入传统的数据科学和机器学习工作流,大幅缩短处理时间。
- Xavier SoC 和 AGX 平台正在开启机器人、医疗保健、智慧城市和交通运输领域自主机器的新时代。
- NVIDIA DRIVE 在汽车制造商、电动汽车初创公司和出行服务商中得到广泛采用,用于开发自动驾驶解决方案。