I/O 2024: Gemini
Year: 2024 · ▶ 在 YouTube 观看
Sissie Hsiao (Gemini 体验和 Google 助理副总裁/总经理)
话题段落 (7)
- 00:00:12 · 介绍:Gemini 应用的愿景 — Sissie Hsiao
- 介绍 Gemini 应用的愿景,通过直接访问 Google 最新的 AI 模型,成为最有用的个人 AI 助理。
- 00:00:48 · 推出 Gemini Live — Sissie Hsiao
- 宣布推出 Gemini Live,一种全新的语音对话体验,支持自然流畅的对话和打断。
- 00:01:50 · 推出 Gems — Sissie Hsiao
- 揭示 Gems,一项允许用户为特定、重复性任务创建定制化、个人专家版 Gemini 的功能。
- 00:03:05 · AI 作为代理:Gemini Advanced 中的旅行规划 — Sissie Hsiao
- 演示 Gemini Advanced 如何作为代理,通过对多个变量和约束进行推理,规划复杂、个性化的旅行。
- 00:05:38 · Gemini 1.5 Pro 和 100 万个 Token 上下文窗口 — Sissie Hsiao
- 宣布 Gemini 1.5 Pro 及其 100 万个 token 上下文窗口现已向 Gemini Advanced 订阅者开放。
- 00:06:33 · 长上下文用例:论文和数据分析 — Sissie Hsiao
- 展示大上下文窗口的实际应用,包括分析完整论文和对多个电子表格进行数据分析。
- 00:08:41 · 提示:Gemini 音乐剧 — Sissie Hsiao
- 一段预先录制的音乐广告,展示了使用 Gemini 处理各种日常提示的便捷性和多功能性。
产品发布 (7)
- 00:01:15 ·
Gemini Live(新体验)- 深度语音对话 · 能够打断 AI · 适应语音模式
- 今年夏天推出
- 00:01:35 ·
Gemini 应用中的视频理解(即将推出的功能)- 基于 Project Astra · 使用摄像头让 Gemini 看到并响应周围环境 · 实时视觉对话
- 今年晚些时候
- 00:02:03 ·
Gems(新功能)- 创建个性化 AI 专家 · 为特定需求定制 Gemini · 保存重复性任务的指令
- 未来几个月内推出
- 00:03:35 ·
Gemini Advanced 中的旅行规划(新体验)- 作为代理规划复杂任务 · 与 Gmail 和 Maps 等 Google 应用集成 · 创建动态、可定制的行程
- 今年夏天推出
- 00:05:45 ·
Gemini Advanced 中的 Gemini 1.5 Pro(现已推出)- 100 万个 token 上下文窗口 · 处理大型文档、代码库和视频 · 任何消费级聊天机器人中最长的上下文窗口
- Gemini Advanced 订阅者今日即可使用
- 00:07:09 ·
Gemini Advanced 中的数据分析(即将推出的功能)- 上传和分析电子表格(例如,来自 Google 表格) · 生成用于分析的自定义 Python 代码 · 从数据创建可视化和图表
- 未来几周内推出
- 00:07:56 ·
200 万个 Token 上下文窗口(即将升级)- 将 Gemini Advanced 的上下文窗口加倍 · 处理更大容量的信息 · 进一步扩展多模态推理能力
- 今年晚些时候
Benchmark 数字 (1)
- 00:05:51 ·
Context Window Size: 1M- 与 Gemini 应用 (32K)、GPT-4 (128K) 和 Claude 3 (200K) 相比。
时间承诺 (8)
- 00:01:08 (今年夏天) — 使用语音与 Gemini 进行深度对话 (Gemini Live)
- 00:01:35 (今年晚些时候) — 将 Project Astra 的速度提升和视频理解能力带到 Gemini 应用中
- 00:02:47 (未来几个月内) — Gems 将推出
- 00:05:24 (今年夏天) — 新的旅行规划体验将向 Gemini Advanced 推出
- 00:05:43 (从今天开始) — Gemini Advanced 订阅者可访问 Gemini 1.5 Pro
- 00:07:11 (未来几周内) — 新的数据分析功能即将推出
- 00:07:56 (今年晚些时候) — 将长上下文窗口加倍至 200 万个 token
- 00:08:28 (今日可用) — 将 Gemini Advanced 扩展到超过 35 种支持的语言
演示 (4)
- 00:02:16 ✓ · 创建 Gems — Sissie Hsiao
- 用户通过提供指令,让 Gemini 扮演一个擅长神秘转折的讲故事者,并使用 Google Drive 中的草稿,创建了一个名为“悬念策展人”的 Gem。
- 00:03:38 ✓ · Gemini Advanced 旅行规划 — Sissie Hsiao
- Gemini 根据家庭偏好以及 Gmail 中的航班/酒店信息,规划了迈阿密劳动节周末之旅,创建了一个动态、可编辑的行程。
- 00:06:37 ✓ · 长上下文论文分析 — Sissie Hsiao
- 用户上传了他们的完整论文、研究和资料,Gemini 扮演论文委员会的教授,提供具有挑战性的问题,帮助用户准备。
- 00:07:14 ✓ · 电子表格数据分析 — Sissie Hsiao
- 用户上传了来自副业的多个销售电子表格,Gemini 分析数据,编写 Python 代码,并生成一个按产品显示随时间变化的利润图表。
金句 (6)
- 00:00:12 — Sissie Hsiao:
Original (EN): Our vision for the Gemini app is to be the most helpful personal AI assistant. 我们对 Gemini 应用的愿景是成为最有用的个人 AI 助理。
- 00:01:13 — Sissie Hsiao:
Original (EN): We’re calling this new experience Live. 我们称这种新体验为 Live。
- 00:02:02 — Sissie Hsiao:
Original (EN): We’re calling these Gems. 我们称这些为 Gems。
- 00:03:06 — Sissie Hsiao:
Original (EN): Next, I’ll show you how Gemini is taking a step closer to being a true AI assistant by planning and taking actions for you. 接下来,我将向您展示 Gemini 如何通过为您规划和采取行动,更接近成为一个真正的 AI 助理。
- 00:05:52 — Sissie Hsiao:
Original (EN): That is the longest context window of any chatbot in the world. 这是世界上任何聊天机器人中最长的上下文窗口。
- 00:07:54 — Sissie Hsiao:
Original (EN): Oh, and just one more thing. Later this year, we’ll be doubling the long context window to 2 million tokens. 哦,还有一件事。今年晚些时候,我们将把长上下文窗口加倍到 200 万个 token。
视觉信号(纯转录看不到的)
屏幕文字时刻 (9)
- 00:00:05 ·
介绍 Sissie Hsiao- 介绍演讲者 Sissie Hsiao 的姓名和头衔,她走上舞台。
- 00:01:16 ·
Gemini Live- 为新的对话语音功能命名。
- 00:02:04 ·
Gems- 为新的个性化功能命名。
- 00:05:25 ·
今年夏天推出- 提供了旅行规划功能的发布时间表。
- 00:05:45 ·
Gemini 1.5 Pro- 宣布集成到 Gemini Advanced 中的具体模型。
- 00:05:51 ·
一个条形图,比较了 token 上下文窗口:Gemini 应用 (32K)、GPT-4 (128K)、Claude 3 (200K)、Gemini Advanced (1M)。- 直观地展示了 Google 在上下文窗口大小方面声称的领先地位。
- 00:05:55 ·
世界上最长的上下文窗口- 一个直接而大胆的竞争声明。
- 00:07:59 ·
200 万个 Gemini Advanced- 宣布未来上下文窗口将加倍,强化了他们对这一能力的关注。
- 00:08:31 ·
Gemini Advanced 35+ 种语言- 强调了高级产品的全球扩展和可用性。
舞台时刻 (4)
- 00:00:03 · Sissie Hsiao 走上舞台,受到现场大量观众的掌声。
- 00:02:07 · 观众对‘Gems’功能的发布报以热烈掌声。
- 00:05:31 · 旅行规划演示和发布后,观众鼓掌。
- 00:08:49 · 演示文稿过渡到一段预先录制的高制作水准的 Gemini 音乐广告。
视觉演示 (7)
- 00:00:23 · Gemini 的概念 UI
- 一个简洁的界面显示了解释原子、生成一只猫弹吉他图像的提示,以及带有建议的移动 UI。
- 00:00:43 · Gemini Advanced UI
- Gemini Advanced 的深色主题 UI,带有生成图像、编写代码和创建调色板的提示。
- 00:01:35 · 实时视频分析概念
- 一个概念 UI 显示了手机摄像头实时分析萝卜的画面,由 Gemini Live 完成。
- 00:03:53 · 旅行规划推理图
- 一个动态思维导图可视化了 Gemini 如何连接不同变量(迈阿密、艺术、海鲜、Gmail)并从各种来源提取信息来制定计划。
- 00:04:19 · 生成的旅行行程
- 动态 UI 中显示了详细的每日行程,包括航班时间、酒店信息、餐厅建议和活动。
- 00:07:29 · 生成的数据分析图表
- 生成了一个名为“按产品划分的利润随时间变化”的折线图,显示了手链、耳环和手机壳等各种产品的不同颜色线条。
- 00:07:45 · 生成的 Python 代码
- 显示了 Gemini 为执行数据分析而编写的、使用 pandas 库的底层 Python 代码。
制作信号 (3)
- 00:00:00 · 现场舞台演示,有大量观众。
- 00:00:22 · 切换到主屏幕上预先录制的动画 UI 演示,同时演讲者进行旁白。
- 00:08:49 · 过渡到一段完全预先录制的音乐广告,表明现场环节结束。
关键主题
AI 助理 · Gemini · Gemini Advanced · 长上下文窗口 · 多模态 · 个性化 · 代理式 AI · 对话式 AI · 数据分析 · 代码生成 · 旅行规划 · 生成式 AI · Google I/O
总结要点
- Google 正在积极推动 Gemini 成为一个深度集成、多模态、高度个性化的 AI 助理,超越了简单的聊天功能。
- Gemini Advanced 中庞大的 100 万(并将很快达到 200 万)token 上下文窗口被定位为关键差异化因素,使以前消费级聊天机器人无法完成的复杂、文档密集型任务成为可能。
- Gemini 变得更具‘代理性’,不仅能够提供信息,还能通过与其他 Google 服务集成,主动规划和执行多步骤任务。
- 个性化是一个主要主题,‘Gems’允许用户根据其特定、重复的需求定制 Gemini 的行为,使其成为一个更高效的工具。
- Google 正在迅速向付费订阅者推出其最先进的模型(如 Gemini 1.5 Pro),这表明其有明确的策略来将其尖端 AI 能力货币化。
- 用户体验正在改进,变得更具对话性和自然性,例如‘Live’语音聊天和打断 AI 的能力,模仿了人类互动。
- 数据分析和可视化正变得对非专业人士开放,因为 Gemini 现在可以从电子表格中摄取原始数据,并从自然语言提示中生成洞察和图表。