I/O 2024: 开发者

Year: 2024 · ▶ 在 YouTube 观看

Josh Woodward (Vice President, Google Labs)

Switch language → en

话题段落 (6)

00:05 · 介绍：Gemini 1.5 Pro 和 Flash — Josh Woodward
- 介绍更新后的 Gemini 1.5 Pro 和全新的、更快的 Gemini 1.5 Flash，两者均于今日全球上市。
01:01 · Gemini 1.5 API 功能 — Josh Woodward
- 宣布新的 API 功能，包括 200 万 token 上下文窗口、视频帧提取、并行函数调用和上下文缓存。
02:00 · Gemini 1.5 定价 — Josh Woodward
- 公布 Gemini 1.5 Pro 大幅降低的定价，并推出价格极具竞争力的 Gemini 1.5 Flash。
02:55 · 演示：使用 Gemini 1.5 Flash 的 AI Studio — Josh Woodward
- 演示如何在 Google AI Studio 中使用 Gemini 1.5 Flash 快速处理大型文档并生成摘要。
05:05 · Gemma 开放模型更新 — Josh Woodward
- 宣布推出首个视觉语言开放模型 PaliGemma，以及即将推出的具有全新 270 亿参数规模的 Gemma 2。
07:02 · 开发者故事：印度的 Navarasa — Josh Woodward
- 展示印度开发者如何利用 Gemma 的分词技术为 15 种印度语言创建指令调优模型。

产品发布 (7)

00:36 · Gemini 1.5 Pro (Updated)
- 一系列质量改进 · 原生多模态 · 100 万 token 上下文窗口（200 万 token 需加入候补名单）
- 今日全球上市。定价为每 100 万 token 3.50 美元起（最高 128K 上下文）。
00:43 · Gemini 1.5 Flash (New)
- 针对速度和低延迟进行优化 · 原生多模态 · 100 万 token 上下文窗口
- 今日全球上市。定价为每 100 万 token 0.35 美元起（最高 128K 上下文）。
01:26 · Gemini API：视频帧提取 (New Feature)
- 今日上市。
01:31 · Gemini API：并行函数调用 (New Feature)
- 一次返回多个函数调用
- 今日上市。
01:37 · Gemini API：上下文缓存 (New Feature)
- 将文件一次性发送给模型，避免重复发送 · 降低长上下文任务的成本
- 下月发布。
05:46 · PaliGemma (New)
- Google 首个视觉语言开放模型 · 针对图像字幕和视觉问答进行优化
- 现已上市。
06:09 · Gemma 2 (Coming Soon)
- 新的 270 亿参数规模 · 针对 TPU 和下一代 GPU 进行优化 · 性能超越其两倍以上规模的模型
- 六月上市。

Benchmark 数字 (1)

06:49 · Gemma 2 (27B) Performance: Outperforms models 2X bigger
- Compared to other models with >54B parameters.

时间承诺 (5)

00:46 (Today) — Gemini 1.5 Pro 和 Gemini 1.5 Flash 已在全球 200 多个国家和地区上市。
01:15 (Today) — 开发者可以注册候补名单，试用 Gemini 1.5 Pro 的 200 万 token 上下文窗口。
01:50 (Next month) — Gemini API 的上下文缓存功能将发布。
05:51 (Right now) — 首个视觉语言开放模型 PaliGemma 现已上市。
06:14 (In June) — Gemma 2，下一代开放模型，包括 270 亿参数版本，将上市。

演示 (1)

03:06 ✓ · AI Studio with Gemini 1.5 Flash — Josh Woodward
- 演讲者展示了 Google AI Studio 网页用户界面，加载了一个包含 93,000 个 token 的客户反馈 HTML 文件，并使用提示词要求 Gemini 1.5 Flash 生成一份总结反馈的简报文档。模型成功且快速地流式传输了结构化响应。

金句 (5)

00:22 — Josh Woodward:

Original (EN): You all, as developers, can choose the one that works best for you. 作为开发者，你们可以选择最适合自己的。
01:37 — Josh Woodward:

Original (EN): And my favorite, context caching. So you can send all of your files to the model once and not have to resend them over and over again. 我最喜欢的功能是上下文缓存。这样你就可以一次性将所有文件发送给模型，而无需反复重新发送。
02:23 — Josh Woodward:

Original (EN): And 1.5 Flash will start at 35 cents per 1 million tokens. 1.5 Flash 的起价为每 100 万 token 35 美分。
06:48 — Josh Woodward:

Original (EN): This quality-to-size ratio is amazing because it’ll outperform models more than twice its size. 这种质量与规模的比例令人惊叹，因为它将超越其两倍以上规模的模型。
08:40 — Harsh Dhand:

Original (EN): We need a technology that will harness AI so that everyone can use it and no one is left behind. 我们需要一种能够驾驭人工智能的技术，让每个人都能使用它，不让任何人掉队。

视觉信号(纯转录看不到的)

屏幕文字时刻 (11)

00:05 · 介绍 Josh Woodward
- 通过姓名和头衔识别演讲者。
00:29 · Gemini 1.5
- 确立了该部分的主要主题。
00:47 · 200 多个国家和地区
- 强调了新模型的全球可用性。
01:15 · 2M context window. Sign up for waitlist at ai.google.dev/gemini-api
- 宣布了巨大的 200 万 token 上下文窗口并提供了行动号召。
01:24 · 新的 API 功能：视频帧提取、并行函数调用、上下文缓存
- 列出了为 Gemini API 宣布的新开发者重点功能。
02:16 · Gemini 1.5 Pro: $3.50 per 1M tokens up to 128K*
- 宣布旗舰模型在常见上下文大小上的价格降低 50%。
02:23 · Gemini 1.5 Flash: $0.35 per 1M tokens up to 128K*
- 揭示了新速度优化模型的极低价格点。
05:07 · Gemma
- 标志着话题转向 Google 的开放模型系列。
05:46 · PaliGemma
- 宣布了新的视觉语言开放模型。
06:09 · Gemma 2
- 宣布了下一代 Gemma 模型。
06:27 · Gemma 2: 27B parameters
- 揭示了 Gemma 2 模型新的、更大的规模，这是开发者的一项关键请求。

舞台时刻 (4)

00:00 · 视频以 Google I/O 户外大型圆形剧场观众爆满的广角镜头开场。
00:05 · 演讲者 Josh Woodward 走上圆形中央舞台，他的名字显示在主屏幕上。
00:51 · 在宣布 Gemini 1.5 在 200 多个国家上市后，观众爆发出热烈的掌声。
02:27 · 观众再次鼓掌，对新的 Gemini 1.5 Flash 模型的低价做出反应。

视觉演示 (3)

03:06 · Google AI Studio 用户界面
- 屏幕录像显示了 AI Studio 界面。加载了一个名为 ‘customer-forums.html’ 的文件，显示 token 计数为 93,087。选择了模型 ‘Gemini 1.5 Flash’。输入提示词后，模型流式传输了一个结构化的“简报文档”，其中包含总结主题和优点的要点。
05:59 · PaliGemma 功能蒙太奇
- 一段快节奏的图像蒙太奇（DNA、狗、花卉、卫星图像），带有图标，暗示图像标注、字幕和视觉问答任务。
07:58 · Gemma 分词器可视化
- 一个动画展示了一段印地语文本被分解成更小的 token 块，说明了分词器如何处理非拉丁文字。

制作信号 (2)

03:06 · 画中画演示格式，左侧是现场演讲者，右侧是 AI Studio 演示的预录屏幕截图。
07:02 · 演示从现场舞台过渡到一个完全预录的电影式视频片段，内容是关于印度的开发者，包括采访和实地拍摄。

关键主题

Gemini 1.5 Pro · Gemini 1.5 Flash · AI 模型 · 开发者工具 · API 定价 · 多模态 · 长上下文窗口 · 开放模型 · Gemma · PaliGemma · Gemma 2 · Google AI Studio · Vertex AI · 函数调用 · 面向开发者的 AI

总结要点

Google 通过推出 Gemini 1.5 Flash（一个非常快速且廉价的模型）以及将 Gemini 1.5 Pro 降价 50%，在价格和性能上展开激烈竞争。
重点完全放在开发者身上，提供即时全球可用性、强大的新 API 功能（如上下文缓存）以及通过 Google AI Studio 提供的简单入门途径。
100 万 token 上下文窗口是标准配置，200 万 token 窗口即将推出，将长上下文处理定位为 Gemini 系列的关键差异化因素。
Google 通过推出 PaliGemma（视觉语言模型）和即将推出的更强大的 Gemma 2（270 亿参数），扩展 Gemma 系列，加倍履行其对开放模型的承诺。
强烈强调使 AI 在全球范围内易于访问和有用，Gemma 分词器对多种语言的高效处理能力突显了这一点，从而支持了像 Navarasa 这样的印度语言项目。