I/O 2024: Sundar Pichai 开场

Year: 2024 · ▶ 在 YouTube 观看

Sundar Pichai (CEO) · Josh Woodward (Presenter)

Switch language → en

话题段落 (11)

  • 00:00:00 · 开场蒙太奇:一年内发生了很多事 — Narrator
    • 一个快节奏的蒙太奇,展示了过去一年人们如何使用谷歌的 AI 进行创造、学习和解决问题。
  • 00:01:29 · 欢迎与开场致辞 — Sundar Pichai
    • Sundar Pichai 欢迎观众来到 Google I/O,开玩笑说这是谷歌的‘时代巡演’,并为‘Gemini 时代’拉开序幕。
  • 00:02:26 · Gemini 时代:基础与进展 — Sundar Pichai
    • Pichai 概述了 Gemini 模型的进展,强调了其原生多模态能力和超过 150 万开发者的快速采用。
  • 00:04:58 · Gemini 在谷歌搜索中的应用:AI Overviews — Sundar Pichai
    • 宣布将搜索生成体验 (SGE) 发展为‘AI Overviews’,展示了 Gemini 如何改变谷歌的核心产品。
  • 00:06:01 · 使用 Gemini 的 Ask Photos 功能 — Sundar Pichai
    • 介绍了谷歌相册的一项新功能‘Ask Photos’,允许用户使用自然语言查询他们的照片库。
  • 00:07:50 · 多模态与长上下文 — Sundar Pichai
    • Pichai 解释了多模态和长上下文如何成为 Gemini 时代的关键支柱,并用开发者的证言展示了 100 万词元上下文窗口的强大功能。
  • 00:11:11 · 将上下文窗口扩展至 200 万词元 — Sundar Pichai
    • Gemini 1.5 Pro 的上下文窗口翻倍至 200 万词元,创下行业新纪录,并向开发者开放。
  • 00:12:30 · Gemini 在谷歌办公套件中的应用 — Sundar Pichai
    • 演示展示了 Gemini 如何在 Gmail 和 Drive 中直接总结邮件、附件,甚至长达一小时的会议视频。
  • 00:14:23 · NotebookLM 音频概览功能演示 — Josh Woodward
    • Josh Woodward 演示了 NotebookLM 的一项新功能,该功能使用 Gemini 从源材料中生成个性化的交互式音频讨论。
  • 00:18:08 · AI 代理的愿景 — Sundar Pichai
    • Pichai 介绍了 AI 代理的概念,这些代理可以进行推理、规划并跨应用工作,以代表用户完成复杂任务。
  • 00:20:17 · 结论:让 AI 对每个人都有用 — Sundar Pichai
    • Pichai 总结时重申了谷歌的使命,并介绍了谷歌 DeepMind 的负责人 Demis Hassabis,为下一环节做铺垫。

产品发布 (6)

  • 00:05:39 · AI Overviews (Rebrand of SGE)
    • 集成到谷歌搜索中的生成式 AI 答案 · 总结来自多个来源的信息 · 处理复杂、多步骤的查询
    • 本周在美国推出,很快将在更多国家推出。
  • 00:07:39 · Ask Photos 功能 (New Feature in Google Photos)
    • 对照片和记忆进行自然语言搜索 · 总结个人时间线(例如,‘显示我孩子的游泳进步’) · 由 Gemini 的多模态能力驱动
    • 今年夏天推出。
  • 00:11:31 · Gemini 1.5 Pro (Updated Model)
    • 100 万词元上下文窗口 · 改进的翻译、编码和推理能力 · 在 Gemini Advanced 中和向开发者提供
    • 今日起全球开发者可用。
  • 00:12:03 · Gemini 1.5 Pro (2M Tokens) (Expanded Context Window)
    • 200 万词元上下文窗口 · 可处理海量信息(例如,2 小时视频,6 万行代码) · 行业领先的上下文长度
    • 在私密预览版中向开发者提供。
  • 00:13:55 · Gemini 1.5 Pro 在 Workspace 中的应用 (Integration)
    • 总结邮件线索和附件 · 在谷歌云端硬盘中总结视频会议 · 根据上下文起草回复
    • 今日起在 Workspace Labs 中可用。
  • 00:14:47 · 集成 Gemini 1.5 Pro 的 NotebookLM (Update)
    • 由 Gemini 1.5 Pro 驱动 · 从源材料生成学习指南、常见问题解答和测验 · 引入‘音频概览’功能
    • 即将登陆 NotebookLM。

Benchmark 数字 (1)

  • 00:11:20 · Internal Model Comparison: 相比发布模型有积极改进
    • 将 Gemini 1.5 Pro 的‘当前模型’与其‘发布模型’在翻译、对话、代码、推理和写作方面进行比较,显示在所有领域都有所提升。

时间承诺 (7)

  • 00:05:40 (本周) — AI Overviews 将向美国所有用户推出。
  • 00:05:43 (很快) — AI Overviews 将被带到更多国家。
  • 00:07:39 (今年夏天) — 带 Gemini 的 Ask Photos 功能将被推出。
  • 00:11:33 (今日) — Gemini 1.5 Pro 向全球开发者开放。
  • 00:11:46 (今日) — 带 100 万词元上下文的 Gemini 1.5 Pro 在 Gemini Advanced 中可用。
  • 00:12:16 (在私密预览版中) — 带 200 万词元的 Gemini 1.5 Pro 向开发者开放。
  • 00:13:55 (今日) — Gemini 1.5 Pro 在 Workspace Labs 中可用。

演示 (6)

  • 00:06:31 ✓ · Ask Photos - 车牌号 — Sundar Pichai (narrating)
    • 一位用户问谷歌相册‘我的车牌号是多少来着’,应用找到了一张汽车的照片并提取了号码。
  • 00:13:08 ✓ · Gmail 中的 Gemini - 学校摘要 — Sundar Pichai (narrating)
    • 一位用户要求 Gmail 中的 Gemini ‘帮我跟上 Maywood Park 小学的邮件’,它提供了来自多个邮件和一个 PDF 附件的关键日期和待办事项的要点总结。
  • 00:13:28 ✓ · Drive 中的 Gemini - 会议摘要 — Sundar Pichai (narrating)
    • 一位用户要求 Gemini 总结存储在谷歌云端硬盘中的一个长达一小时的 PTA 会议视频,它提供了一个讨论要点的项目符号列表。
  • 00:14:51 ✓ · NotebookLM - 音频概览 — Josh Woodward
    • 从一系列科学文档中,NotebookLM 生成了一个由两位 AI 主持人进行的对话式音频播客。然后用户加入对话,提出一个澄清问题,AI 主持人随之调整讨论内容。
  • 00:18:53 ✓ · AI 代理 - 退鞋(概念) — Sundar Pichai (narrating)
    • 一个概念视频,用户告诉 AI 代理退回一双鞋。代理在 Gmail 中找到收据,浏览零售商网站,填写退货表格,并在日历中安排 UPS 取件。
  • 00:19:15 ✓ · AI 代理 - 搬到新城市(概念) — Sundar Pichai (narrating)
    • 一个概念视频,一位刚搬到芝加哥的用户向代理寻求帮助。代理主动提出寻找本地服务、搜索遛狗人,并在多个网站上更新用户的地址。

金句 (7)

  • 00:02:12 — Sundar Pichai:

    Original (EN): It’s basically Google’s version of the Eras tour, but with fewer costume changes. 这基本上是谷歌版的时代巡演,只是服装变化没那么多。

  • 00:02:21 — Sundar Pichai:

    Original (EN): At Google though, we are fully in our Gemini era. 但在谷歌,我们已完全进入了我们的 Gemini 时代。

  • 00:18:00 — Sundar Pichai:

    Original (EN): This is what we mean when we say it’s an I/O for a new generation. 这就是我们说这是一个为新一代举办的 I/O 大会时的意思。

  • 00:12:28 — Sundar Pichai:

    Original (EN): This represents the next step on our journey towards the ultimate goal of infinite context. 这代表了我们迈向无限上下文这一最终目标的下一步。

  • 00:20:21 — Sundar Pichai:

    Original (EN): Making AI helpful for everyone. 让 AI 对每个人都有用。

  • 00:10:38 — Linda Lawton:

    Original (EN): It was poetry. It was beautiful. I was so happy. This is going to be amazing. This is going to help people. 那简直是诗。太美了。我太高兴了。这会非常了不起。这会帮助到人们。

  • 00:08:56 — Lior Sinclair:

    Original (EN): I remember the announcement, the 1 million token context window, and my first reaction was, there’s no way they were able to achieve this. 我记得那个发布会,100 万词元的上下文窗口,我的第一反应是,他们不可能做到这一点。

视觉信号(纯转录看不到的)

屏幕文字时刻 (12)

  • 00:01:05 · Gemini 1.5 Pro 打破上下文窗口限制
    • 预示了主题演讲中关于长上下文突破的主要主题。
  • 00:01:20 · 人人可用的 AI
    • 凸显了谷歌普及 AI 的核心信息。
  • 00:01:41 · Google I/O 标志 (#GoogleIO)
    • 为活动打上品牌烙印。
  • 00:01:50 · Sundar Pichai
    • 标识主要演讲者,谷歌的 CEO。
  • 00:02:59 · The Gemini Era
    • 为整个主题演讲确立了中心主题。
  • 00:04:29 · 集成到所有 20 亿用户的产品中
    • 量化了 Gemini 在谷歌生态系统中整合的巨大规模。
  • 00:05:39 · AI Overviews - 在美国推出,更多国家即将推出
    • 宣布了搜索中 AI 功能的官方产品名称和推出计划。
  • 00:07:39 · Google Photos - Ask Photos with Gemini
    • 宣布了谷歌相册中由 AI 驱动的新功能。
  • 00:12:07 · Gemini 1.5 Pro - 200 万词元
    • 宣布上下文窗口翻倍,这是一项重大的技术成就。
  • 00:14:26 · 介绍 Josh Woodward
    • 标识 NotebookLM 演示的第二位演讲者。
  • 00:18:12 · 代理
    • 介绍了谷歌 AI 发展的下一个主要焦点领域。
  • 00:20:21 · 让 AI 对每个人都有用
    • 重申了谷歌总体的 AI 使命宣言。

舞台时刻 (5)

  • 00:01:29 · Sundar Pichai 走上巨大、色彩缤纷的户外舞台,现场观众报以热烈掌声。
  • 00:06:51 · 在展示了‘Ask Photos’功能的概念后,现场观众报以热烈的掌声。
  • 00:11:05 · 一个广角高角度镜头显示整个圆形剧场为 Gemini 1.5 Pro 的发布鼓掌。
  • 00:14:23 · Sundar Pichai 介绍了 Josh Woodward,他坐在舞台一侧的桌子旁,准备进行演示。
  • 00:17:43 · NotebookLM 演示结束后,Sundar Pichai 走回舞台中央继续主题演讲。

视觉演示 (4)

  • 00:13:08 · Gmail 中的 Gemini 用户界面
    • Gmail 的一个侧边栏显示 Gemini 正在总结一系列邮件及其附件,提供了一个简洁的项目符号列表,列出了待办事项。
  • 00:13:28 · 谷歌云端硬盘中的 Gemini 用户界面
    • 谷歌云端硬盘中正在播放一个 PTA 会议的视频,Gemini 侧边栏提供了这个长达一小时视频中讨论要点的文本摘要。
  • 00:14:51 · NotebookLM 音频概览演示
    • Josh Woodward 展示了 NotebookLM 界面,点击一个按钮生成‘音频概览’,一个对话式播客风格的讨论开始。然后他加入音频聊天提问。
  • 00:18:53 · AI 代理概念演示(退鞋)
    • 手机上的预渲染动画显示一个 AI 代理无缝地在 Gmail、带有退货表单的网页浏览器和谷歌日历之间切换,以完成产品退货。

制作信号 (4)

  • 00:00:00 · 预先录制、经过高度剪辑的开场蒙太奇,配有音乐和图形。
  • 00:01:29 · 切换到有现场观众的录播主题演讲。
  • 00:08:41 · 切入一个预先录制的片段,内容是来自不同开发者和研究人员的证言。
  • 00:18:53 · 使用预渲染的概念动画来展示 AI 代理的未来愿景,因为该技术尚未完全实现。

关键主题

Gemini · AI 代理 · 多模态 · 长上下文 · 谷歌搜索 · AI Overviews · 谷歌相册 · 谷歌办公套件 · NotebookLM · 开发者工具 · 人人可用的 AI · Gemini 1.5 Pro · Gemini Advanced · 生成式 AI · 个性化

总结要点

  • 谷歌将‘Gemini 时代’定位为一次根本性变革,将其最先进的 AI 模型整合到其整个产品生态系统中,从搜索、相册到 Workspace 和开发者 API。
  • 支撑这个新时代的两个关键技术支柱是原生多模态(任何数据类型的输入/输出)和巨大的长上下文窗口,该窗口已扩展到行业领先的 200 万词元。
  • 谷歌搜索正在经历多年来最大的变革,全面推出‘AI Overviews’,从提供蓝色链接列表转变为在搜索结果页顶部提供生成式的摘要答案。
  • 谷歌的下一个主要前沿是‘AI 代理’——这是一种主动式系统,旨在代表用户跨不同应用程序进行推理、规划和执行复杂的多步骤任务,从回答问题转向完成任务。
  • 谷歌正通过广泛提供具有 100 万词元上下文窗口的 Gemini 1.5 Pro,积极吸引开发者社区,展示其解锁新的、更个性化和更具上下文感知能力的应用的强大功能。