I/O 2025: DeepMind + Gemini for Developers
Year: 2025 · ▶ 在 YouTube 观看
Demis Hassabis (CEO) · Tulsee Doshi (Head of Product, Gemini)
话题段落 (8)
- 00:00:07 · Gemini时代简介 — Demis Hassabis
- Demis Hassabis介绍了AI的快速发展,并重点介绍了Gemini 2.5系列模型的能力和开发者采用情况。
- 00:02:41 · 30件你可以用Gemini构建的事物
- 一个快节奏的视频剪辑,展示了使用Gemini构建的创意和技术应用,从模拟到语音编程。
- 00:03:58 · 面向开发者的Gemini 2.5 — Tulsee Doshi
- Tulsee Doshi上台详细介绍面向开发者的Gemini 2.5改进,包括新功能、安全性、成本效益和控制。
- 00:07:39 · 演示:使用Gemini 2.5 Pro编写3D Web应用 — Tulsee Doshi
- 现场演示展示了Google AI Studio中的Gemini 2.5 Pro如何将手绘草图转换为功能性的3D照片球体Web应用程序。
- 00:13:00 · 介绍Gemini Diffusion — Tulsee Doshi
- 介绍Gemini Diffusion,这是一种新的实验性文本扩散模型,专为极低延迟的文本生成而设计。
- 00:14:38 · Gemini的未来:世界模型与Project Astra — Demis Hassabis
- Demis Hassabis返场讨论Gemini的愿景,包括“世界模型”概念、Gemini机器人技术以及通用AI助手Project Astra。
- 00:19:26 · 演示:Project Astra实战
- 一段预录视频演示了Project Astra作为多模态AI助手的能力,帮助用户识别自行车零件、查找手册和拨打电话。
- 00:21:51 · AI赋能科学与无障碍功能 — Demis Hassabis
- Demis Hassabis介绍了AI在科学领域的突破(AlphaProof, Co-Scientist, AlphaFold 3)以及与Aira合作,利用Project Astra技术帮助视障人士。
产品发布 (8)
- 00:01:47 ·
Gemini 2.5 Flash (更新)(Updated Preview)- 改进的推理、代码和长上下文能力 · 高速度和低成本 · 在LMArena排行榜上排名第二,仅次于2.5 Pro
- 六月初正式发布
- 00:04:25 ·
Gemini 2.5 原生音频输出(Preview)- 首创的双人多说话人支持 · 富有表现力的语音,带有细微的音调,包括耳语 · 支持超过24种语言和语码转换
- 即日起在Gemini API中提供
- 00:06:14 ·
Gemini 2.5 思维摘要(Experimental)- 将模型的原始思维整理成清晰、结构化的格式 · 提供模型推理过程的透明度 · 有助于调试和理解模型行为
- 通过Gemini API和Vertex AI包含在2.5 Pro和Flash中
- 00:07:00 ·
Gemini 2.5 Pro 思维预算(Coming Soon)- 让开发者能够控制成本/延迟与质量之间的权衡 · 允许为模型的“思考”阶段设置令牌预算 · 可以关闭以获得更快、更少深思熟虑的响应
- 即将登陆2.5 Pro
- 00:12:27 ·
Jules(Public Beta)- 基于Gemini 2.5 Pro的异步编程智能体 · 处理大型代码库中的复杂任务(例如版本升级) · 与GitHub集成并自主工作
- 现在可在jules.google注册
- 00:14:58 ·
Gemini 2.5 Pro 深度思考(Trusted Tester)- 一种将模型性能推向极限的新模式 · 使用思维和推理方面的尖端研究,包括并行技术 · 在困难的数学和编程基准测试中取得了突破性成果
- 通过Gemini API向受信任的测试者提供
- 00:18:02 ·
Gemini机器人技术(Research)- 用于教导机器人完成有用任务的专用模型 · 使机器人能够抓取物体、遵循指令和适应环境 · 利用世界模型对物理环境的理解
- 演示在活动现场的AI Sandbox中提供
- 00:22:12 ·
AlphaProof, Co-Scientist, AlphaEvolve, AMIE Medical, AlphaFold 3(Research)- 用于推进科学发现的AI模型 · 解决数学问题、与研究人员合作以及预测分子结构 · 彻底改变药物发现和AI训练本身
- 研究出版物和模型
Benchmark 数字 (5)
- 00:01:17 ·
WebDev Arena: 1415- Gemini 2.5 Pro位居排行榜榜首,比三月发布版高出142分。
- 00:02:01 ·
LMArena: 1424- Gemini 2.5 Flash排名第二,仅次于Gemini 2.5 Pro。
- 00:15:19 ·
USAMO 2025 (Mathematics): 49.4%- Gemini 2.5 Pro Deep Think显著优于Gemini 2.5 Pro (34.5%)和OpenAI模型。
- 00:15:19 ·
LiveCodeBench v6 (Code): 80.4%- Gemini 2.5 Pro Deep Think优于Gemini 2.5 Pro和OpenAI模型。
- 00:15:19 ·
MMMU (Multimodality): 84.0%- Gemini 2.5 Pro Deep Think优于Gemini 2.5 Pro和OpenAI模型。
时间承诺 (5)
- 00:02:07 (in early June) — Gemini 2.5 Flash将正式发布。
- 00:02:09 (soon after) — Gemini 2.5 Pro将很快正式发布。
- 00:05:27 (today) — 原生音频输出现已在Gemini API中提供。
- 00:12:29 (now) — Jules现已进入公开测试阶段。
- 00:21:39 (soon) — Project Astra的功能将很快登陆Gemini Live、Search Live以及面向开发者的Live API。
演示 (4)
- 00:04:40 ✓ · Gemini 2.5 原生音频输出 — Tulsee Doshi
- 演示了模型新的文本到语音功能,包括富有表现力的语调、耳语,以及在英语和印地语之间无缝切换。
- 00:07:39 ✓ · 从草图编写3D Web应用 — Tulsee Doshi
- 在Google AI Studio中,上传了一张手绘的照片球体草图,Gemini 2.5 Pro生成了HTML、CSS和JavaScript(使用three.js)来创建一个交互式的3D Web应用程序。
- 00:13:45 ✓ · Gemini Diffusion实时生成 — Tulsee Doshi
- 给出一个数学问题作为提示,Gemini Diffusion模型几乎瞬间生成了分步解决方案,展示了其低延迟特性。
- 00:19:26 ✓ · Project Astra:自行车维修AI助手 — None
- 一段预录视频显示,用户在手机上与Project Astra互动。AI识别了自行车零件,搜索了手册,找到了YouTube教程,阅读邮件以查找零件尺寸,并向自行车店发起了通话。
金句 (7)
- 00:00:51 — Demis Hassabis:
Original (EN): Gemini 2.5 Pro is our most intelligent model ever and the best foundation model in the world. Gemini 2.5 Pro是我们有史以来最智能的模型,也是世界上最好的基础模型。
- 00:04:30 — Tulsee Doshi:
Original (EN): These now have a first-of-its-kind multi-speaker support for two voices, built on native audio output. 这些现在拥有首创的双人多说话人支持,建立在原生音频输出之上。
- 00:06:07 — Tulsee Doshi:
Original (EN): So Gemini 2.5 is our most secure model yet. 所以Gemini 2.5是我们迄今为止最安全的模型。
- 00:14:58 — Demis Hassabis:
Original (EN): Today, we’re making 2.5 Pro even better by introducing a new mode we’re calling Deep Think. 今天,我们通过引入一种我们称之为‘深度思考’的新模式,使2.5 Pro变得更加出色。
- 00:16:41 — Demis Hassabis:
Original (EN): We’re working hard to extend it to become what we call a world model. 我们正在努力将其扩展,使其成为我们所说的‘世界模型’。
- 00:18:41 — Demis Hassabis:
Original (EN): This is our ultimate vision for the Gemini app: to transform it into a universal AI assistant. 这是我们对Gemini应用的终极愿景:将其转变为一个通用的AI助手。
- 00:23:13 — Demis Hassabis:
Original (EN): I’ve always believed, if done safely and responsibly, it has the potential to accelerate scientific discovery and be the most beneficial technology ever invented. 我一直相信,如果安全、负责任地进行,它有潜力加速科学发现,并成为有史以来最有益的发明技术。
视觉信号(纯转录看不到的)
屏幕文字时刻 (8)
- 00:00:11 ·
Google DeepMind- 将接下来的环节标记为来自谷歌核心AI研究实验室。
- 00:00:50 ·
Gemini 2.5 Pro - 我们有史以来最智能的模型- 一个清晰、大胆的关于模型优越性的声明。
- 00:01:17 ·
WebDev Arena - 1415 Elo分数- 显示具体的基准分数以证实其在编程领域的领先地位。
- 00:02:07 ·
Gemini 2.5 Flash - 六月初正式发布- 宣布新款Flash模型的正式发布时间表。
- 00:04:11 ·
Gemini 2.5改进列表:改进的功能、增强的安全性和透明度、更高的成本效益、以及更多的控制。- 概述了面向开发者的更新的关键主题。
- 00:12:30 ·
jules.google- 为开发者提供了注册新编程智能体的直接URL。
- 00:15:19 ·
数学(USAMO 2025)、代码(LiveCodeBench v6)和多模态(MMMU)基准测试的条形图。- 直观地比较了Gemini 2.5 Pro Deep Think与其他模型的性能,显示出显著的领先优势。
- 00:24:25 ·
一张总结幻灯片,展示了Gemini旗下所有已发布的产品和概念。- 回顾了整个演讲,将Gemini Live、Project Astra和AI赋能科学等不同项目连接成一个连贯的愿景。
舞台时刻 (7)
- 00:00:07 · 演讲以一段预录的Demis Hassabis在演播室的片段开始。
- 00:00:11 · Demis Hassabis走上Google I/O现场舞台,面对广大观众。
- 00:02:11 · 观众为Gemini 2.5 Flash正式发布的消息报以热烈掌声。
- 00:03:51 · 在Demis Hassabis的介绍下,Tulsee Doshi走上舞台。
- 00:09:34 · 在成功演示从草图生成3D Web应用后,观众报以热烈掌声。
- 00:14:30 · Demis Hassabis回到舞台,接替Tulsee Doshi。
- 00:15:00 · 在宣布“深度思考”模式时,观众发出低语和掌声。
视觉演示 (5)
- 00:01:08 · 一个Gemini 2.5 Pro将手绘的地震草图变成交互式3D城市模拟的演示。
- 分屏显示,左边是一张简单的绘图,右边是一个复杂的、交互式的3D城市模型正在被生成。
- 00:07:50 · Tulsee Doshi在Google AI Studio中演示编写一个3D照片画廊。
- AI Studio界面,包含一个提示区、代码编辑器和一个实时预览窗格。上传了一张手绘草图,模型生成了代码,创建了一个3D照片球体。
- 00:13:47 · 一个展示Gemini Diffusion速度的演示。
- 一个复杂的数学问题作为提示显示,完整的、分步的解决方案几乎立即出现在屏幕上,强调了其低延迟。
- 00:17:15 · 由生成式世界模型Genie 2生成的视频。
- 一个可玩的2D视频游戏世界,主角是一个在未来城市的机器人,由单个图像提示生成。
- 00:19:26 · 一段预录的Project Astra演示。
- 来自智能手机摄像头的第一人称视角。AI助手高亮显示物体,理解口头命令,在手机上导航网页和其他应用,甚至能自然地中断和恢复对话。
制作信号 (5)
- 00:00:07 · 预录片段
- 00:00:11 · 切换到现场舞台演讲
- 00:02:41 · 预先制作的演示集锦
- 00:19:26 · 预录、剪辑过的产品演示视频
- 00:24:39 · 预先制作的短片(Aira合作)
关键主题
Gemini 2.5 Pro · Gemini 2.5 Flash · 面向开发者的AI · 多模态 · 原生音频输出 · AI智能体 · AI编程 · AI赋能科学 · Project Astra · 世界模型 · Gemini Diffusion · 机器人技术 · AI安全 · 低延迟模型
总结要点
- 谷歌正在快速迭代其旗舰Gemini模型,其中Gemini 2.5 Pro定位为全球最佳基础模型,而2.5 Flash则是一款高效、低成本的替代方案。
- 重点正转向使AI成为一个主动、通用的助手,如Project Astra愿景所示,它集成了记忆、上下文以及跨应用和设备行动的能力。
- 开发者体验至关重要,推出了原生多说话人音频输出、“思维预算”成本控制和“思维摘要”透明度等新工具。
- 谷歌正在推动研究前沿,提出了“世界模型”(可模拟现实)、“Gemini Diffusion”(用于超快文本生成)和“深度思考”模式(用于复杂推理)等概念。
- AI正被应用于解决重大挑战,在AI赋能科学(AlphaFold 3, AlphaProof)方面取得重大进展,并在机器人技术(Gemini Robotics)和无障碍功能(与Aira合作)方面有新的应用。
- 多模态正在从文本和图像扩展到深度集成、富有表现力且具备上下文感知能力的音频和视频理解,为下一代AI助手奠定基础。