I/O 2025: DeepMind + Gemini for Developers

Year: 2025 · ▶ 在 YouTube 观看

Demis Hassabis (CEO) · Tulsee Doshi (Head of Product, Gemini)

Switch language → en

话题段落 (8)

00:00:07 · Gemini时代简介 — Demis Hassabis
- Demis Hassabis介绍了AI的快速发展，并重点介绍了Gemini 2.5系列模型的能力和开发者采用情况。
00:02:41 · 30件你可以用Gemini构建的事物
- 一个快节奏的视频剪辑，展示了使用Gemini构建的创意和技术应用，从模拟到语音编程。
00:03:58 · 面向开发者的Gemini 2.5 — Tulsee Doshi
- Tulsee Doshi上台详细介绍面向开发者的Gemini 2.5改进，包括新功能、安全性、成本效益和控制。
00:07:39 · 演示：使用Gemini 2.5 Pro编写3D Web应用 — Tulsee Doshi
- 现场演示展示了Google AI Studio中的Gemini 2.5 Pro如何将手绘草图转换为功能性的3D照片球体Web应用程序。
00:13:00 · 介绍Gemini Diffusion — Tulsee Doshi
- 介绍Gemini Diffusion，这是一种新的实验性文本扩散模型，专为极低延迟的文本生成而设计。
00:14:38 · Gemini的未来：世界模型与Project Astra — Demis Hassabis
- Demis Hassabis返场讨论Gemini的愿景，包括“世界模型”概念、Gemini机器人技术以及通用AI助手Project Astra。
00:19:26 · 演示：Project Astra实战
- 一段预录视频演示了Project Astra作为多模态AI助手的能力，帮助用户识别自行车零件、查找手册和拨打电话。
00:21:51 · AI赋能科学与无障碍功能 — Demis Hassabis
- Demis Hassabis介绍了AI在科学领域的突破（AlphaProof, Co-Scientist, AlphaFold 3）以及与Aira合作，利用Project Astra技术帮助视障人士。

产品发布 (8)

00:01:47 · Gemini 2.5 Flash (更新) (Updated Preview)
- 改进的推理、代码和长上下文能力 · 高速度和低成本 · 在LMArena排行榜上排名第二，仅次于2.5 Pro
- 六月初正式发布
00:04:25 · Gemini 2.5 原生音频输出 (Preview)
- 首创的双人多说话人支持 · 富有表现力的语音，带有细微的音调，包括耳语 · 支持超过24种语言和语码转换
- 即日起在Gemini API中提供
00:06:14 · Gemini 2.5 思维摘要 (Experimental)
- 将模型的原始思维整理成清晰、结构化的格式 · 提供模型推理过程的透明度 · 有助于调试和理解模型行为
- 通过Gemini API和Vertex AI包含在2.5 Pro和Flash中
00:07:00 · Gemini 2.5 Pro 思维预算 (Coming Soon)
- 让开发者能够控制成本/延迟与质量之间的权衡 · 允许为模型的“思考”阶段设置令牌预算 · 可以关闭以获得更快、更少深思熟虑的响应
- 即将登陆2.5 Pro
00:12:27 · Jules (Public Beta)
- 基于Gemini 2.5 Pro的异步编程智能体 · 处理大型代码库中的复杂任务（例如版本升级） · 与GitHub集成并自主工作
- 现在可在jules.google注册
00:14:58 · Gemini 2.5 Pro 深度思考 (Trusted Tester)
- 一种将模型性能推向极限的新模式 · 使用思维和推理方面的尖端研究，包括并行技术 · 在困难的数学和编程基准测试中取得了突破性成果
- 通过Gemini API向受信任的测试者提供
00:18:02 · Gemini机器人技术 (Research)
- 用于教导机器人完成有用任务的专用模型 · 使机器人能够抓取物体、遵循指令和适应环境 · 利用世界模型对物理环境的理解
- 演示在活动现场的AI Sandbox中提供
00:22:12 · AlphaProof, Co-Scientist, AlphaEvolve, AMIE Medical, AlphaFold 3 (Research)
- 用于推进科学发现的AI模型 · 解决数学问题、与研究人员合作以及预测分子结构 · 彻底改变药物发现和AI训练本身
- 研究出版物和模型

Benchmark 数字 (5)

00:01:17 · WebDev Arena: 1415
- Gemini 2.5 Pro位居排行榜榜首，比三月发布版高出142分。
00:02:01 · LMArena: 1424
- Gemini 2.5 Flash排名第二，仅次于Gemini 2.5 Pro。
00:15:19 · USAMO 2025 (Mathematics): 49.4%
- Gemini 2.5 Pro Deep Think显著优于Gemini 2.5 Pro (34.5%)和OpenAI模型。
00:15:19 · LiveCodeBench v6 (Code): 80.4%
- Gemini 2.5 Pro Deep Think优于Gemini 2.5 Pro和OpenAI模型。
00:15:19 · MMMU (Multimodality): 84.0%
- Gemini 2.5 Pro Deep Think优于Gemini 2.5 Pro和OpenAI模型。

时间承诺 (5)

00:02:07 (in early June) — Gemini 2.5 Flash将正式发布。
00:02:09 (soon after) — Gemini 2.5 Pro将很快正式发布。
00:05:27 (today) — 原生音频输出现已在Gemini API中提供。
00:12:29 (now) — Jules现已进入公开测试阶段。
00:21:39 (soon) — Project Astra的功能将很快登陆Gemini Live、Search Live以及面向开发者的Live API。

演示 (4)

00:04:40 ✓ · Gemini 2.5 原生音频输出 — Tulsee Doshi
- 演示了模型新的文本到语音功能，包括富有表现力的语调、耳语，以及在英语和印地语之间无缝切换。
00:07:39 ✓ · 从草图编写3D Web应用 — Tulsee Doshi
- 在Google AI Studio中，上传了一张手绘的照片球体草图，Gemini 2.5 Pro生成了HTML、CSS和JavaScript（使用three.js）来创建一个交互式的3D Web应用程序。
00:13:45 ✓ · Gemini Diffusion实时生成 — Tulsee Doshi
- 给出一个数学问题作为提示，Gemini Diffusion模型几乎瞬间生成了分步解决方案，展示了其低延迟特性。
00:19:26 ✓ · Project Astra：自行车维修AI助手 — None
- 一段预录视频显示，用户在手机上与Project Astra互动。AI识别了自行车零件，搜索了手册，找到了YouTube教程，阅读邮件以查找零件尺寸，并向自行车店发起了通话。

金句 (7)

00:00:51 — Demis Hassabis:

Original (EN): Gemini 2.5 Pro is our most intelligent model ever and the best foundation model in the world. Gemini 2.5 Pro是我们有史以来最智能的模型，也是世界上最好的基础模型。
00:04:30 — Tulsee Doshi:

Original (EN): These now have a first-of-its-kind multi-speaker support for two voices, built on native audio output. 这些现在拥有首创的双人多说话人支持，建立在原生音频输出之上。
00:06:07 — Tulsee Doshi:

Original (EN): So Gemini 2.5 is our most secure model yet. 所以Gemini 2.5是我们迄今为止最安全的模型。
00:14:58 — Demis Hassabis:

Original (EN): Today, we’re making 2.5 Pro even better by introducing a new mode we’re calling Deep Think. 今天，我们通过引入一种我们称之为‘深度思考’的新模式，使2.5 Pro变得更加出色。
00:16:41 — Demis Hassabis:

Original (EN): We’re working hard to extend it to become what we call a world model. 我们正在努力将其扩展，使其成为我们所说的‘世界模型’。
00:18:41 — Demis Hassabis:

Original (EN): This is our ultimate vision for the Gemini app: to transform it into a universal AI assistant. 这是我们对Gemini应用的终极愿景：将其转变为一个通用的AI助手。
00:23:13 — Demis Hassabis:

Original (EN): I’ve always believed, if done safely and responsibly, it has the potential to accelerate scientific discovery and be the most beneficial technology ever invented. 我一直相信，如果安全、负责任地进行，它有潜力加速科学发现，并成为有史以来最有益的发明技术。

视觉信号(纯转录看不到的)

屏幕文字时刻 (8)

00:00:11 · Google DeepMind
- 将接下来的环节标记为来自谷歌核心AI研究实验室。
00:00:50 · Gemini 2.5 Pro - 我们有史以来最智能的模型
- 一个清晰、大胆的关于模型优越性的声明。
00:01:17 · WebDev Arena - 1415 Elo分数
- 显示具体的基准分数以证实其在编程领域的领先地位。
00:02:07 · Gemini 2.5 Flash - 六月初正式发布
- 宣布新款Flash模型的正式发布时间表。
00:04:11 · Gemini 2.5改进列表：改进的功能、增强的安全性和透明度、更高的成本效益、以及更多的控制。
- 概述了面向开发者的更新的关键主题。
00:12:30 · jules.google
- 为开发者提供了注册新编程智能体的直接URL。
00:15:19 · 数学（USAMO 2025）、代码（LiveCodeBench v6）和多模态（MMMU）基准测试的条形图。
- 直观地比较了Gemini 2.5 Pro Deep Think与其他模型的性能，显示出显著的领先优势。
00:24:25 · 一张总结幻灯片，展示了Gemini旗下所有已发布的产品和概念。
- 回顾了整个演讲，将Gemini Live、Project Astra和AI赋能科学等不同项目连接成一个连贯的愿景。

舞台时刻 (7)

00:00:07 · 演讲以一段预录的Demis Hassabis在演播室的片段开始。
00:00:11 · Demis Hassabis走上Google I/O现场舞台，面对广大观众。
00:02:11 · 观众为Gemini 2.5 Flash正式发布的消息报以热烈掌声。
00:03:51 · 在Demis Hassabis的介绍下，Tulsee Doshi走上舞台。
00:09:34 · 在成功演示从草图生成3D Web应用后，观众报以热烈掌声。
00:14:30 · Demis Hassabis回到舞台，接替Tulsee Doshi。
00:15:00 · 在宣布“深度思考”模式时，观众发出低语和掌声。

视觉演示 (5)

00:01:08 · 一个Gemini 2.5 Pro将手绘的地震草图变成交互式3D城市模拟的演示。
- 分屏显示，左边是一张简单的绘图，右边是一个复杂的、交互式的3D城市模型正在被生成。
00:07:50 · Tulsee Doshi在Google AI Studio中演示编写一个3D照片画廊。
- AI Studio界面，包含一个提示区、代码编辑器和一个实时预览窗格。上传了一张手绘草图，模型生成了代码，创建了一个3D照片球体。
00:13:47 · 一个展示Gemini Diffusion速度的演示。
- 一个复杂的数学问题作为提示显示，完整的、分步的解决方案几乎立即出现在屏幕上，强调了其低延迟。
00:17:15 · 由生成式世界模型Genie 2生成的视频。
- 一个可玩的2D视频游戏世界，主角是一个在未来城市的机器人，由单个图像提示生成。
00:19:26 · 一段预录的Project Astra演示。
- 来自智能手机摄像头的第一人称视角。AI助手高亮显示物体，理解口头命令，在手机上导航网页和其他应用，甚至能自然地中断和恢复对话。

制作信号 (5)

00:00:07 · 预录片段
00:00:11 · 切换到现场舞台演讲
00:02:41 · 预先制作的演示集锦
00:19:26 · 预录、剪辑过的产品演示视频
00:24:39 · 预先制作的短片（Aira合作）

关键主题

Gemini 2.5 Pro · Gemini 2.5 Flash · 面向开发者的AI · 多模态 · 原生音频输出 · AI智能体 · AI编程 · AI赋能科学 · Project Astra · 世界模型 · Gemini Diffusion · 机器人技术 · AI安全 · 低延迟模型

总结要点

谷歌正在快速迭代其旗舰Gemini模型，其中Gemini 2.5 Pro定位为全球最佳基础模型，而2.5 Flash则是一款高效、低成本的替代方案。
重点正转向使AI成为一个主动、通用的助手，如Project Astra愿景所示，它集成了记忆、上下文以及跨应用和设备行动的能力。
开发者体验至关重要，推出了原生多说话人音频输出、“思维预算”成本控制和“思维摘要”透明度等新工具。
谷歌正在推动研究前沿，提出了“世界模型”（可模拟现实）、“Gemini Diffusion”（用于超快文本生成）和“深度思考”模式（用于复杂推理）等概念。
AI正被应用于解决重大挑战，在AI赋能科学（AlphaFold 3, AlphaProof）方面取得重大进展，并在机器人技术（Gemini Robotics）和无障碍功能（与Aira合作）方面有新的应用。
多模态正在从文本和图像扩展到深度集成、富有表现力且具备上下文感知能力的音频和视频理解，为下一代AI助手奠定基础。