I/O 2024: 开发者

Year: 2024 · ▶ 在 YouTube 观看

Josh Woodward (Vice President, Google Labs)

Switch language → en

话题段落 (6)

  • 00:05 · 介绍:Gemini 1.5 Pro 和 Flash — Josh Woodward
    • 介绍更新后的 Gemini 1.5 Pro 和全新的、更快的 Gemini 1.5 Flash,两者均于今日全球上市。
  • 01:01 · Gemini 1.5 API 功能 — Josh Woodward
    • 宣布新的 API 功能,包括 200 万 token 上下文窗口、视频帧提取、并行函数调用和上下文缓存。
  • 02:00 · Gemini 1.5 定价 — Josh Woodward
    • 公布 Gemini 1.5 Pro 大幅降低的定价,并推出价格极具竞争力的 Gemini 1.5 Flash。
  • 02:55 · 演示:使用 Gemini 1.5 Flash 的 AI Studio — Josh Woodward
    • 演示如何在 Google AI Studio 中使用 Gemini 1.5 Flash 快速处理大型文档并生成摘要。
  • 05:05 · Gemma 开放模型更新 — Josh Woodward
    • 宣布推出首个视觉语言开放模型 PaliGemma,以及即将推出的具有全新 270 亿参数规模的 Gemma 2。
  • 07:02 · 开发者故事:印度的 Navarasa — Josh Woodward
    • 展示印度开发者如何利用 Gemma 的分词技术为 15 种印度语言创建指令调优模型。

产品发布 (7)

  • 00:36 · Gemini 1.5 Pro (Updated)
    • 一系列质量改进 · 原生多模态 · 100 万 token 上下文窗口(200 万 token 需加入候补名单)
    • 今日全球上市。定价为每 100 万 token 3.50 美元起(最高 128K 上下文)。
  • 00:43 · Gemini 1.5 Flash (New)
    • 针对速度和低延迟进行优化 · 原生多模态 · 100 万 token 上下文窗口
    • 今日全球上市。定价为每 100 万 token 0.35 美元起(最高 128K 上下文)。
  • 01:26 · Gemini API:视频帧提取 (New Feature)
    • 今日上市。
  • 01:31 · Gemini API:并行函数调用 (New Feature)
    • 一次返回多个函数调用
    • 今日上市。
  • 01:37 · Gemini API:上下文缓存 (New Feature)
    • 将文件一次性发送给模型,避免重复发送 · 降低长上下文任务的成本
    • 下月发布。
  • 05:46 · PaliGemma (New)
    • Google 首个视觉语言开放模型 · 针对图像字幕和视觉问答进行优化
    • 现已上市。
  • 06:09 · Gemma 2 (Coming Soon)
    • 新的 270 亿参数规模 · 针对 TPU 和下一代 GPU 进行优化 · 性能超越其两倍以上规模的模型
    • 六月上市。

Benchmark 数字 (1)

  • 06:49 · Gemma 2 (27B) Performance: Outperforms models 2X bigger
    • Compared to other models with >54B parameters.

时间承诺 (5)

  • 00:46 (Today) — Gemini 1.5 Pro 和 Gemini 1.5 Flash 已在全球 200 多个国家和地区上市。
  • 01:15 (Today) — 开发者可以注册候补名单,试用 Gemini 1.5 Pro 的 200 万 token 上下文窗口。
  • 01:50 (Next month) — Gemini API 的上下文缓存功能将发布。
  • 05:51 (Right now) — 首个视觉语言开放模型 PaliGemma 现已上市。
  • 06:14 (In June) — Gemma 2,下一代开放模型,包括 270 亿参数版本,将上市。

演示 (1)

  • 03:06 ✓ · AI Studio with Gemini 1.5 Flash — Josh Woodward
    • 演讲者展示了 Google AI Studio 网页用户界面,加载了一个包含 93,000 个 token 的客户反馈 HTML 文件,并使用提示词要求 Gemini 1.5 Flash 生成一份总结反馈的简报文档。模型成功且快速地流式传输了结构化响应。

金句 (5)

  • 00:22 — Josh Woodward:

    Original (EN): You all, as developers, can choose the one that works best for you. 作为开发者,你们可以选择最适合自己的。

  • 01:37 — Josh Woodward:

    Original (EN): And my favorite, context caching. So you can send all of your files to the model once and not have to resend them over and over again. 我最喜欢的功能是上下文缓存。这样你就可以一次性将所有文件发送给模型,而无需反复重新发送。

  • 02:23 — Josh Woodward:

    Original (EN): And 1.5 Flash will start at 35 cents per 1 million tokens. 1.5 Flash 的起价为每 100 万 token 35 美分。

  • 06:48 — Josh Woodward:

    Original (EN): This quality-to-size ratio is amazing because it’ll outperform models more than twice its size. 这种质量与规模的比例令人惊叹,因为它将超越其两倍以上规模的模型。

  • 08:40 — Harsh Dhand:

    Original (EN): We need a technology that will harness AI so that everyone can use it and no one is left behind. 我们需要一种能够驾驭人工智能的技术,让每个人都能使用它,不让任何人掉队。

视觉信号(纯转录看不到的)

屏幕文字时刻 (11)

  • 00:05 · 介绍 Josh Woodward
    • 通过姓名和头衔识别演讲者。
  • 00:29 · Gemini 1.5
    • 确立了该部分的主要主题。
  • 00:47 · 200 多个国家和地区
    • 强调了新模型的全球可用性。
  • 01:15 · 2M context window. Sign up for waitlist at ai.google.dev/gemini-api
    • 宣布了巨大的 200 万 token 上下文窗口并提供了行动号召。
  • 01:24 · 新的 API 功能:视频帧提取、并行函数调用、上下文缓存
    • 列出了为 Gemini API 宣布的新开发者重点功能。
  • 02:16 · Gemini 1.5 Pro: $3.50 per 1M tokens up to 128K*
    • 宣布旗舰模型在常见上下文大小上的价格降低 50%。
  • 02:23 · Gemini 1.5 Flash: $0.35 per 1M tokens up to 128K*
    • 揭示了新速度优化模型的极低价格点。
  • 05:07 · Gemma
    • 标志着话题转向 Google 的开放模型系列。
  • 05:46 · PaliGemma
    • 宣布了新的视觉语言开放模型。
  • 06:09 · Gemma 2
    • 宣布了下一代 Gemma 模型。
  • 06:27 · Gemma 2: 27B parameters
    • 揭示了 Gemma 2 模型新的、更大的规模,这是开发者的一项关键请求。

舞台时刻 (4)

  • 00:00 · 视频以 Google I/O 户外大型圆形剧场观众爆满的广角镜头开场。
  • 00:05 · 演讲者 Josh Woodward 走上圆形中央舞台,他的名字显示在主屏幕上。
  • 00:51 · 在宣布 Gemini 1.5 在 200 多个国家上市后,观众爆发出热烈的掌声。
  • 02:27 · 观众再次鼓掌,对新的 Gemini 1.5 Flash 模型的低价做出反应。

视觉演示 (3)

  • 03:06 · Google AI Studio 用户界面
    • 屏幕录像显示了 AI Studio 界面。加载了一个名为 ‘customer-forums.html’ 的文件,显示 token 计数为 93,087。选择了模型 ‘Gemini 1.5 Flash’。输入提示词后,模型流式传输了一个结构化的“简报文档”,其中包含总结主题和优点的要点。
  • 05:59 · PaliGemma 功能蒙太奇
    • 一段快节奏的图像蒙太奇(DNA、狗、花卉、卫星图像),带有图标,暗示图像标注、字幕和视觉问答任务。
  • 07:58 · Gemma 分词器可视化
    • 一个动画展示了一段印地语文本被分解成更小的 token 块,说明了分词器如何处理非拉丁文字。

制作信号 (2)

  • 03:06 · 画中画演示格式,左侧是现场演讲者,右侧是 AI Studio 演示的预录屏幕截图。
  • 07:02 · 演示从现场舞台过渡到一个完全预录的电影式视频片段,内容是关于印度的开发者,包括采访和实地拍摄。

关键主题

Gemini 1.5 Pro · Gemini 1.5 Flash · AI 模型 · 开发者工具 · API 定价 · 多模态 · 长上下文窗口 · 开放模型 · Gemma · PaliGemma · Gemma 2 · Google AI Studio · Vertex AI · 函数调用 · 面向开发者的 AI

总结要点

  • Google 通过推出 Gemini 1.5 Flash(一个非常快速且廉价的模型)以及将 Gemini 1.5 Pro 降价 50%,在价格和性能上展开激烈竞争。
  • 重点完全放在开发者身上,提供即时全球可用性、强大的新 API 功能(如上下文缓存)以及通过 Google AI Studio 提供的简单入门途径。
  • 100 万 token 上下文窗口是标准配置,200 万 token 窗口即将推出,将长上下文处理定位为 Gemini 系列的关键差异化因素。
  • Google 通过推出 PaliGemma(视觉语言模型)和即将推出的更强大的 Gemma 2(270 亿参数),扩展 Gemma 系列,加倍履行其对开放模型的承诺。
  • 强烈强调使 AI 在全球范围内易于访问和有用,Gemma 分词器对多种语言的高效处理能力突显了这一点,从而支持了像 Navarasa 这样的印度语言项目。