I/O 2024: Google DeepMind

Year: 2024 · ▶ 在 YouTube 观看

Demis Hassabis (Co-Founder & CEO) · Doug Eck (Senior Research Director, AI)

Switch language → en

话题段落 (8)

00:00:00 · Google DeepMind 介绍 — Demis Hassabis
- Demis Hassabis 介绍了 Google DeepMind 的使命：负责任地构建通用人工智能（AGI）以造福人类，并强调了最近的突破。
02:20 · 介绍 Gemini 1.5 Flash — Demis Hassabis
- 宣布推出一款新的、更轻量级的 Gemini 模型，旨在实现规模化下的速度、效率和更低成本。
03:50 · 介绍 Project Astra — Demis Hassabis
- 公布了通用多模态人工智能代理的愿景，它能够进行对话式、实时理解并与世界互动。
08:17 · 生成式媒体：将创意变为现实 — Doug Eck
- Doug Eck 登台介绍 Google 图像、音乐和视频生成式媒体工具的一系列更新。
09:08 · 介绍 Imagen 3 — Doug Eck
- 宣布推出 Imagen 3，这是 Google 最强大的文本到图像模型，具有改进的真实感、细节和文本渲染能力。
10:17 · 音乐人工智能沙盒 — Doug Eck
- 通过一段展示 Wyclef Jean 和 Marc Rebillet 等艺术家的视频，展示了一套面向音乐家的人工智能工具。
12:56 · 介绍 Veo — Demis Hassabis
- Demis Hassabis 宣布推出 Veo，这是 Google 最强大的生成式视频模型，能够根据各种提示创建高质量的 1080p 视频。
14:29 · Veo 与 Donald Glover 的合作 — Demis Hassabis
- 展示了一部与 Donald Glover 及其工作室 Gilga 合作创作的短片，展示了 Veo 的电影制作能力。

产品发布 (5)

02:20 · Gemini 1.5 Flash (New Model)
- 更轻量、更具成本效益 · 针对速度和低延迟进行优化 · 保持多模态推理和长上下文窗口
- 今天起在 Google AI Studio 和 Vertex AI 中可用。
03:55 · Project Astra (Vision / Project)
- 通用人工智能代理 · 实时、多模态理解（视觉和语音） · 对话式且上下文感知
- 部分功能将于今年晚些时候引入 Google 产品。
09:11 · Imagen 3 (New Model)
- 改进的真实感和细节 · 更好地理解自然语言提示 · 高级文本渲染能力
- 今天起开放 ImageFX 私人预览注册。
10:35 · Music AI Sandbox (Tool Suite)
- 从头开始创建新的器乐部分 · 在音轨之间转移风格 · 面向艺术家的协作工具
- 正在与 YouTube 和艺术家合作开发中。
13:09 · Veo (New Model)
- 生成超过一分钟的高质量 1080p 视频 · 理解电影术语和视觉风格 · 在不同镜头中保持主体一致性
- VideoFX 候补名单现已开放；未来几周内将向部分创作者提供。

时间承诺 (6)

02:49 (today) — Gemini 1.5 Flash 和 1.5 Pro 在 Google AI Studio 和 Vertex AI 中提供，支持高达 100 万个 token。
02:58 (today) — 开发者可以注册试用 200 万个 token 的上下文窗口。
07:59 (later this year) — Project Astra 代理的一些功能将引入 Google 产品，例如 Gemini 应用。
10:05 (today) — ImageFX 中 Imagen 3 的试用注册已开放。
16:13 (over the coming weeks) — Veo 的部分功能将通过 VideoFX 向部分创作者提供。
16:20 (now) — 带有 Veo 的 VideoFX 候补名单已开放。

演示 (3)

05:23 ✗ · Project Astra — Unnamed Google employee (in video)
- 一段预先录制的、第一人称视角的演示，展示了人工智能代理识别物体、解释代码、记住先前上下文（眼镜位置），并通过手机和智能眼镜进行创意任务。
11:02 ✗ · Music AI Sandbox — Wyclef Jean, Marc Rebillet (in video)
- 一段预先录制的视频，展示了专业音乐家在录音室环境中使用人工智能工具生成、采样和修改音乐循环和音轨。
14:30 ✗ · Veo Filmmaking — Donald Glover and his team (in video)
- 一段预先录制的视频，展示了一个创意团队如何使用 Veo 从文本提示生成各种视频片段，以进行头脑风暴并创作一部短片。

金句 (8)

00:37 — Demis Hassabis:

Original (EN): I co-founded DeepMind in 2010 with the goal of one day building AGI, artificial general intelligence. 我于 2010 年共同创立了 DeepMind，目标是有一天能够构建通用人工智能（AGI）。
02:20 — Demis Hassabis:

Original (EN): So today, we’re introducing Gemini 1.5 Flash. 所以今天，我们正在介绍 Gemini 1.5 Flash。
04:02 — Demis Hassabis:

Original (EN): For a long time, we’ve wanted to build a universal AI agent that can be truly helpful in everyday life. 长期以来，我们一直希望构建一个能够在日常生活中真正提供帮助的通用人工智能代理。
09:09 — Doug Eck:

Original (EN): Today, I’m so excited to introduce Imagen 3, our most capable image generation model yet. 今天，我非常高兴地介绍 Imagen 3，这是我们迄今为止最强大的图像生成模型。
13:04 — Demis Hassabis:

Original (EN): Today, I’m excited to announce our newest, most capable generative video model, called Veo. 今天，我很高兴宣布我们最新、最强大的生成式视频模型，名为 Veo。
15:39 — Donald Glover:

Original (EN): Everybody’s going to become a director, and everybody should be a director. 每个人都将成为导演，每个人都应该成为导演。
15:44 — Donald Glover:

Original (EN): Because at the heart of all of this is just storytelling. 因为所有这一切的核心都只是讲故事。
16:50 — Demis Hassabis:

Original (EN): We knew that one day it would change everything. Now that time is here. 我们知道有一天它会改变一切。现在，那个时刻已经到来。

视觉信号(纯转录看不到的)

屏幕文字时刻 (9)

00:00 · Google DeepMind
- 为整个演示环节设定主题。
02:22 · Gemini 1.5 Flash
- 新发布模型的官方品牌名称。
02:51 · Available in Google AI Studio and Vertex AI / 1M tokens
- 面向开发者的关键可用性和功能发布。
03:55 · Project Astra
- Google 人工智能代理愿景的官方名称。
04:03 · 一个在日常生活中提供帮助的通用人工智能代理
- Project Astra 的核心使命宣言。
09:11 · Imagen 3
- 新文本到图像模型的官方品牌名称。
10:36 · Music AI Sandbox
- 音乐创作工具套件的官方名称。
13:09 · Veo
- 新文本到视频模型的官方品牌名称。
16:02 · A collaboration between Google DeepMind, Donald Glover, and Gilga. Coming soon.
- 表彰了 Veo 演示中备受瞩目的合作。

舞台时刻 (5)

00:01 · Demis Hassabis 走上舞台，与即将离场的 Sundar Pichai 握手。
02:27 · 观众为 Gemini 1.5 Flash 的发布鼓掌。
08:40 · Demis Hassabis 介绍 Doug Eck，后者走上舞台接管演示。
12:43 · 在音乐人工智能沙盒视频播放后，Demis Hassabis 返回舞台。
16:07 · 在播放了与 Donald Glover 合作的 Veo 演示视频后，观众报以热烈的掌声。

视觉演示 (5)

05:23 · Project Astra 演示
- 手机摄像头的第一人称视角，人工智能识别办公室中的物体，解释代码，并记住眼镜的位置。演示随后切换到通过智能眼镜看到的视角。
09:16 · Imagen 3 示例
- Imagen 3 生成的一系列高质量、逼真且富有艺术感的图像，包括一只狼、阳光下大笑的人们、一幅风景画以及由羽毛构成的单词“LIGHT”。
11:02 · 音乐人工智能沙盒演示
- 音乐家 Wyclef Jean 和 Marc Rebillet 在录音室中与用户界面互动，生成并组合音乐元素，展示了提示和生成的音频波形。
13:15 · Veo 示例
- Veo 生成的各种高质量 1080p 视频片段蒙太奇，包括浴缸里的狗、灯塔的航拍镜头、盛开的向日葵以及汽车穿梭于城市。
14:30 · Veo 与 Donald Glover 的电影制作演示
- Donald Glover 及其创意团队使用文本提示界面为短片项目生成各种视频镜头（一辆开往宫殿的汽车、一艘帆船、一条丛林小径）。

制作信号 (3)

05:23 · Project Astra 的预录演示片段，标记为“展示原型”。
11:02 · 展示音乐人工智能沙盒与艺术家的预录视频片段。
14:30 · 展示 Veo 与 Donald Glover 合作的预录视频片段。

关键主题

通用人工智能 (AGI) · 多模态人工智能 · 人工智能代理 · 生成式人工智能 · 文本到视频生成 · 文本到图像生成 · 人工智能助力创意 · 音乐生成 · Google DeepMind · Project Astra · Gemini Models · Veo · Imagen 3 · 人工智能责任

总结要点

Google DeepMind 被定位为推动 Google 最雄心勃勃的人工智能研究的核心引擎，其明确的长期目标是实现通用人工智能（AGI）。
Gemini 模型家族正在多样化，以满足不同需求：Gemini 1.5 Pro 提供巅峰能力，而新的 Gemini 1.5 Flash 则旨在实现规模化下的速度和成本效益。
Project Astra 代表了 Google 对未来人工智能助手的愿景：一个主动、对话式、多模态的代理，能够实时通过视觉和听觉理解世界。
Google 正在大力推进生成式媒体领域，为视频 (Veo)、图像 (Imagen 3) 和音乐 (Music AI Sandbox) 领域的创作者推出强大的新工具。
与 Donald Glover 和 Wyclef Jean 等创作者进行高调合作是 Google 开发和验证其创意人工智能工具的关键策略之一。
正在解决的核心技术挑战是降低延迟并改进上下文记忆，使人工智能互动在日常生活中感觉自然且真正有用。
Google 正在通过 Veo 推动生成式视频的最新进展，专注于高分辨率输出、更长的片段持续时间以及保持视觉一致性。