GTC March 2024 Keynote (Blackwell announcement)

类别: 主 Keynote · 年份: 2024 · ▶ 观看

讲者: Jensen Huang - NVIDIA 创始人兼 CEO

Switch language → English

章节 (15)

  • 00:00 · 开场:我是 AI
    • 一段电影级视频,展示了 AI 在各行各业的广泛应用。
  • 03:34 · 欢迎来到 GTC
    • Jensen Huang 欢迎与会者参加开发者大会,并强调了庞大的行业代表阵容。
  • 07:08 · 加速计算与 AI 的发展历程
    • 回顾引领生成式 AI 革命的计算领域历史里程碑。
  • 10:30 · 模拟与 Omniverse
    • 展示如何使用 Omniverse 模拟物理世界并训练 AI。
  • 15:00 · 加速 EDA 与模拟行业
    • 与 Ansys、Synopsys 和 Cadence 合作,加速工程和芯片设计。
  • 19:50 · 对更大模型和更大 GPU 的需求
    • 解释训练万亿参数模型所需算力的指数级增长。
  • 26:05 · 介绍 Blackwell 平台
    • 正式发布 Blackwell GPU 架构和 GB200 Superchip。
  • 39:50 · Blackwell 性能与架构
    • 详细介绍 Blackwell 相比 Hopper 的性能飞跃,包括全新的 FP4 精度。
  • 42:30 · 扩展至数据中心:NVLink Switch 与 GB200 NVL72
    • 介绍构建 AI 工厂所需的网络和机架级系统。
  • 50:00 · 在 Blackwell 上进行训练与推理
    • 对比在 Blackwell 和 Hopper 上训练和推理大模型所需的功耗和时间。
  • 01:08:00 · Earth-2:气候科技与天气预测
    • 利用 AI 和数字孪生技术高分辨率预测极端天气事件。
  • 01:11:00 · 医疗保健与 BioNeMo
    • 将生成式 AI 应用于生物学,用于药物发现和蛋白质生成。
  • 01:16:16 · 生成式 AI 微服务 (NIMs)
    • 介绍 NIMs 作为将 AI 模型打包和部署为软件的新方式。
  • 01:38:00 · Omniverse 与工业数字孪生
    • Wistron、Siemens 和 Nissan 等公司如何使用 Omniverse 进行工业数字化。
  • 01:42:50 · AI 的下一波浪潮:机器人技术
    • 发布用于物理 AI 和人形机器人的新平台和基础模型。

产品发布 (7)

  • [26:40] Blackwell GPU
    • 下一代 AI GPU 架构。
    • specs: 2080 亿个晶体管,TSMC 4NP 工艺,20 petaFLOPS AI 性能。
    • availability: 未说明
  • [27:20] GB200 Grace Blackwell Superchip
    • 结合了两个 Blackwell GPU 和一个 Grace CPU 的超级芯片。
    • specs: 40 petaFLOPS AI 性能,864GB 高速内存,3.6 TB/s NVLink 带宽。
    • availability: 未说明
  • [40:00] NVLink Switch Chip
    • 用于高速连接多个 GPU 的网络芯片。
    • specs: 500 亿个晶体管,7.2 TB/s 全双工带宽,4 个 NVLink,每个 1.8 TB/s。
    • availability: 未说明
  • [48:40] GB200 NVL72
    • 作为单个巨型 GPU 运行的液冷机架级系统。
    • specs: 72 个 Blackwell GPU,36 个 Grace CPU,1.44 exaFLOPS 推理性能,130 TB/s 带宽。
    • availability: 未说明
  • [01:16:16] NVIDIA NIM (Inference Microservice)
    • 经过打包和优化的预训练 AI 模型,可在整个 CUDA 安装基础上运行。
    • specs: 包含行业标准 API、Triton Inference Server 和企业管理工具。
    • availability: 可在 ai.nvidia.com 获取
  • [01:40:00] Omniverse Cloud APIs
    • 将 Omniverse 数字孪生流式传输到 Apple Vision Pro 等设备的 API。
    • specs: 实现数据互操作性和工业级规模的基于物理的渲染。
    • availability: 未说明
  • [01:51:50] Project GR00T
    • 用于人形机器人学习的通用基础模型。
    • specs: 接收多模态指令和过去的交互,为机器人生成动作。
    • availability: 未说明

数据 (6)

时间 指标 数值 背景
06:33 行业代表 $100 Trillion 在场与会者所代表的全球行业总价值。
26:48 晶体管数量 2080 亿 Blackwell GPU 中的晶体管数量。
27:00 AI 性能 20 PetaFLOPS 单个 Blackwell GPU 的 AI 性能。
48:40 每机架 GPU 数量 72 单个 GB200 NVL72 机架中的 Blackwell GPU 数量。
50:10 功耗 4 兆瓦 使用 2000 个 Blackwell GPU 在 90 天内训练一个 1.8T 参数模型所需的功耗(低于 Hopper 的 15MW)。
01:11:00 推理吞吐量 30x 在 1.8T 参数模型推理上,Blackwell 相比 Hopper 的性能提升。

Benchmark 主张 (3)

  • [39:50] Training Performance: 2.5x
    • vs: Hopper (FP8)
    • gain: 每芯片训练性能提升 2.5 倍。
  • [39:50] Inference Performance: 5x
    • vs: Hopper (FP8 vs new FP4)
    • gain: 使用全新的 FP4 格式,每芯片推理性能提升 5 倍。
  • [01:11:00] Large Model Inference Throughput: 30x
    • vs: Hopper
    • gain: 在 GB200 NVL72 系统上,1.8T 参数 MoE 模型的吞吐量提高 30 倍。

客户故事 (2)

  • [01:03:00] Wistron
    • 使用 Omniverse 构建了其工厂的数字孪生。
    • outcome: 将工厂上线时间从 5 个月缩短至 2.5 个月,工人效率提高 51%,周期时间缩短 50%。
  • [01:39:00] Siemens / HD Hyundai
    • 将 Omniverse 集成到 Teamcenter X 中,以构建巨型船舶的数字孪生。
    • outcome: 统一了工程数据,实现了交互式可视化,并消除了制造过程中的浪费和错误。

关键技术 (4)

  • 2nd Gen Transformer Engine: 动态将精度缩放至 FP4,使 AI 推理的吞吐量和内存带宽翻倍。
  • 5th Gen NVLink: 在 GPU 之间提供高速、一致的互连,使其能够作为单个巨型 GPU 运行。
  • NVIDIA NIM: 将 AI 模型与优化的推理引擎和 API 打包,以便轻松部署。
  • Omniverse: 一个用于构建和运行基于物理的数字孪生的平台。

现场演示 (5)

  • [01:08:00] Earth-2 高分辨率预测台风等极端天气事件。
  • [01:11:00] BioNeMo 生成蛋白质结构和分子。
  • [01:24:00] NeMo Retriever 与 PDF 文档交互以回答问题。
  • [01:38:00] 工厂和船舶的 Omniverse 数字孪生。
  • [01:51:50] 机器人在 Isaac Sim 中学习任务并将技能转移到现实世界。

预测 / 承诺 (2)

  • [01:28:30, 未来] 未来的数据中心将被视为 AI 工厂,其目标是生成智能。
  • [01:44:50, 未来] 所有移动的物体都将是机器人。

公司提及 (4)

Ansys, Synopsys, Cadence · TSMC · AWS, Google Cloud, Oracle, Microsoft Azure · SAP, ServiceNow, Cohesity, Snowflake, NetApp, Dell

引用 (3)

We need bigger GPUs. — Jensen Huang @ 22:15

Blackwell is not a chip, Blackwell is the name of a platform. — Jensen Huang @ 31:18

The future is generative. — Jensen Huang @ 01:15:50

主题

加速计算 · 生成式 AI · Blackwell 架构 · 大型语言模型 · 数字孪生 · Omniverse · 机器人技术 · 医疗保健 AI · 气候科技 · AI 工厂 · NVIDIA NIM · NVLink

要点

  • NVIDIA 正在从一家芯片公司转型为一家全栈平台公司。
  • Blackwell 架构在性能和效率上实现了巨大飞跃,专为万亿参数生成式 AI 模型而设计。
  • 生成式 AI 正在超越文本,扩展到视频、3D 和物理模拟领域。
  • NVIDIA NIMs (推理微服务) 简化了企业自定义 AI 模型的部署。
  • Omniverse 和数字孪生正在成为工业数字化、制造和机器人训练的关键工具。
  • AI 的下一波重大浪潮是物理 AI 和机器人技术,由 Project GR00T 和 Isaac 等平台提供支持。