Google I/O ‘25 主 Keynote(完整版)
Year: 2025 · ▶ 在 YouTube 观看
Sundar Pichai (首席执行官) · Demis Hassabis (首席执行官) · Tulsee Doshi (Gemini API 产品负责人) · Liz Reid (谷歌搜索负责人) · Rajan Patel (谷歌搜索工程副总裁) · Vidhya Srinivasan (搜索广告副总裁/总经理) · Josh Woodward (谷歌实验室副总裁) · Jason Baldridge (生成式媒体总监) · Shahram Izadi (AR研究总监) · Nishtha (产品经理)
话题段落 (10)
- 01:15 · 开场及Gemini时代进展 — Sundar Pichai
- Sundar Pichai为主题演讲拉开序幕,强调了“Gemini时代”AI开发的快速步伐和产品发布速度,展示了在模型性能和采用方面的重大进展。
- 18:24 · Google DeepMind与AI的未来 — Demis Hassabis
- Demis Hassabis讨论了通往AGI的进展,介绍了Deep Think、世界模型等新模型能力,以及通过AlphaFold 3和AlphaEvolve在AI用于科学领域的进步。
- 22:16 · 面向开发者的Gemini 2.5 — Tulsee Doshi
- Tulsee Doshi详细介绍了为开发者改进的Gemini 2.5模型,包括增强的安全性、更高的成本效益、原生音频输出,以及编码智能体Jules的引入。
- 47:50 · 谷歌搜索的新纪元 — Liz Reid
- Liz Reid揭示了谷歌搜索的未来,引入了由Gemini 2.5驱动的AI模式、深度搜索和个性化建议,以处理更复杂和个人化的查询。
- 54:47 · 复杂分析与智能体搜索 — Rajan Patel
- Rajan Patel演示了AI模式内的高级数据分析、可视化和智能体功能,展示了搜索现在如何执行如查找门票等多步骤任务。
- 01:01:00 · AI时代的购物 — Vidhya Srinivasan
- Vidhya Srinivasan展示了AI如何通过视觉灵感、虚拟试穿功能和智能体结账功能,改变搜索中的购物体验。
- 01:09:57 · 通用AI助手:Gemini应用 — Josh Woodward
- Josh Woodward概述了将Gemini打造成为一个个人化、主动且强大的通用AI助手的愿景,并介绍了Gemini Live、深度研究、Canvas以及Chrome中的Gemini。
- 01:22:42 · 生成式媒体与创意工具 — Jason Baldridge
- Jason Baldridge介绍了新的生成式媒体工具,包括采用Lyria 2的Music AI Sandbox,以及与电影制作人合作开发Veo作为专业故事叙述工具。
- 01:36:30 · Android与物理世界 — Shahram Izadi
- Shahram Izadi介绍了Android XR,一个在Gemini时代为头戴设备和眼镜打造的新平台,并演示了Project Astra在原型眼镜上的实时多模态能力。
- 01:50:08 · 结束语与AI愿景 — Sundar Pichai
- Sundar Pichai总结了发布会内容,重申了谷歌让AI为每个人服务的使命,并强调了在野火探测和灾难救援等领域的实际应用。
产品发布 (16)
- 01:55 ·
Gemini 2.5 Pro(更新版本)- 在所有LMArena类别中达到最先进的性能 · 提升了编码能力,在WebDev Arena上排名第一 · 为谷歌搜索中的AI模式提供支持
- 在Gemini应用和搜索中可用
- 07:32 ·
Google Beam(新产品)- AI优先的3D视频通信平台 · 使用新的视频模型将2D视频流转换为逼真的3D体验 · 与HP合作开发
- 今年晚些时候向早期客户推出
- 10:08 ·
Google Meet 语音翻译(新功能)- 在Google Meet中直接进行实时语音翻译 · 匹配说话者的语调、模式和表情 · 初期支持英语和西班牙语
- 订阅用户现已可用,未来几周将推出更多语言
- 10:46 ·
Gemini Live(Gemini 应用中的新功能)- 实时对话体验 · 包含来自Project Astra的摄像头和屏幕共享功能 · 允许用户谈论他们能看到的任何东西
- 从今天开始在Android和iOS上陆续推出
- 12:24 ·
Gemini应用中的智能体模式(实验性功能)- 代表用户执行多步骤任务 · 可以与网络和其他服务(如Zillow)互动 · 使用Project Mariner的功能
- 即将为订阅用户推出
- 16:15 ·
Gmail 个性化智能回复(新功能)- 生成听起来像用户本人的邮件回复 · 使用来自云端硬盘、过去邮件和文档的个人上下文 · 匹配用户的语调、风格和用词选择
- 今年夏天在Gmail中为订阅用户提供
- 20:02 ·
Gemini 2.5 Flash(更新版本)- 更高效、更具成本效益的模型 · 在推理、代码和长上下文方面均有改进 · 在LMArena上仅次于2.5 Pro,排名第二
- 六月初全面上市
- 22:42 ·
Gemini 文本转语音(新预览版)- 原生音频输出,声音更具表现力 · 支持双人声音的多说话人功能 · 支持超过24种语言
- 今天在Gemini API中可用
- 30:08 ·
Jules(公开测试版)- 异步编码智能体 · 修复错误、进行更新,并与GitHub集成 · 能够处理大型代码库中的复杂任务
- 公开测试版可在 jules.google 获取
- 31:37 ·
Gemini Diffusion(实验性研究模型)- 用于极低延迟生成的文本扩散模型 · 生成速度比2.0 Flash-Lite快5倍 · 在数学和代码的编辑任务上表现出色
- 目前正在与一小部分用户进行测试
- 46:50 ·
谷歌搜索中的AI模式(新功能)- 端到端的AI搜索体验 · 处理更长、更复杂的对话式查询 · 具备多步骤推理和规划能力
- 从今天开始向美国所有用户陆续推出
- 01:03:23 ·
谷歌搜索中的虚拟试穿(新功能)- 使用个人照片虚拟试穿衣服 · 由专为时尚定制的图像生成模型驱动 · 展示面料的悬垂、折叠和拉伸效果
- 从今天开始在Labs中陆续推出
- 01:17:33 ·
Imagen 4(新模型)- 能力最强的图像生成模型 · 改进了文本和字体渲染 · 提供速度快10倍的变体版本
- 从今天开始在Gemini应用中可用
- 01:19:34 ·
Veo 3(新模型)- 最先进的视频生成模型 · 包含原生音频生成(音效、对话) · 改进了照片真实感和物理理解能力
- 今天可用
- 01:30:27 ·
Flow(全新AI电影制作工具)- 结合了Veo、Imagen和Gemini · 为创意人士打造,允许场景构建和迭代 · 在不同剪辑中保持角色和场景的一致性
- 今天发布
- 01:36:34 ·
Android XR(新平台)- 用于沉浸式头戴设备和眼镜的平台 · 在Gemini时代为AI优先体验而构建 · 与三星和高通合作开发
- 开发者预览版已可用,首批设备将于今年晚些时候推出
Benchmark 数字 (7)
- 02:25 ·
模型进展 (LMArena Elo 首次亮相得分): 1448- 显示了从Gemini 1.0 Pro (1111) 到 Gemini 2.5 Pro (1448) 的阶跃式增长。
- 02:38 ·
LMArena 排行榜: 1- Gemini 2.5 Pro 在所有类别(综合、困难提示、编码、数学等)中均排名第一。
- 02:55 ·
WebDev Arena: +142- 更新后的Gemini 2.5 Pro 与三月发布的版本相比,Elo分数增加了+142。
- 04:35 ·
LMArena 排行榜 (最快智能): 332- 谷歌模型(Gemini 2.5 Flash, x3, Gemini 2.0 Flash)在速度方面占据前三名。
- 33:33 ·
USAMO 2025: 49.4%- Gemini 2.5 Pro Deep Think 在此数学基准测试中显著优于Gemini 2.5 Pro (34.5%) 和其他模型。
- 33:33 ·
LiveCodeBench v6: 80.4%- Gemini 2.5 Pro Deep Think 在此编码基准测试中领先于其他模型。
- 33:33 ·
MMMU: 84.0%- Gemini 2.5 Pro Deep Think 在多模态基准测试中表现出顶级性能。
时间承诺 (11)
- 07:32 (今年晚些时候) — Google Beam设备将向早期客户提供。
- 10:08 (未来几周内) — Google Meet语音翻译将推出更多语言。
- 10:46 (从今天开始) — 带摄像头和屏幕共享功能的Gemini Live正在陆续推出。
- 12:24 (即将推出) — 实验性版本的智能体模式将向Gemini应用的订阅用户推出。
- 16:15 (今年夏天) — 个性化智能回复将向Gmail的订阅用户提供。
- 20:02 (六月初) — Gemini 2.5 Flash将全面上市。
- 30:43 (今天) — 异步编码智能体Jules现已进入公开测试阶段。
- 46:50 (从今天开始) — 谷歌搜索中的AI模式正在向美国所有用户陆续推出。
- 01:03:23 (从今天开始) — 虚拟试穿功能在Labs中可用。
- 01:16:40 (本周) — Chrome中的Gemini正在向美国的Gemini订阅用户陆续推出。
- 01:49:02 (今年晚些时候) — 开发者可以开始为Android XR眼镜进行开发。
演示 (6)
- 03:30 ✓ · 《宝可梦 蓝》游戏通关 — Sundar Pichai (narrating)
- 一个进度时间线图表,显示Gemini在700小时内完成了游戏《宝可梦 蓝》中的所有主要里程碑。
- 08:57 ✓ · Google Meet 实时语音翻译 — Pre-recorded actors
- 两个说不同语言(英语和西班牙语)的人在Google Meet中进行了一场流畅的对话,并带有实时、匹配声音的翻译。
- 11:08 ✓ · Gemini Live 摄像头功能 (物体识别) — Pre-recorded user
- 一名用户将手机摄像头对准各种物体(垃圾车、路灯、自己的影子),Gemini Live正确识别了它们,并幽默地纠正了用户的错误识别。
- 01:03:34 ✓ · 虚拟试穿现场演示 — Vidhya Srinivasan
- Vidhya用她的手机给自己拍了一张照片,然后虚拟试穿了一件连衣裙,屏幕上显示了她穿着这件连衣裙的生成图像。
- 01:41:46 ✓ · Android XR 眼镜现场演示 — Shahram Izadi and Nishtha
- 一个现场舞台演示,Nishtha戴着原型眼镜,使用Gemini识别后台的人和物,获取信息,并与Shahram进行实时翻译对话。
- 25:55 ✓ · AI Studio 3D网页应用生成 — Tulsee Doshi
- Tulsee演示了AI Studio中的Gemini 2.5 Pro如何将一个手绘的3D照片球体草图,生成相应的交互式网页应用代码(HTML, CSS, JS)。
金句 (8)
- 01:37 — Sundar Pichai:
Original (EN): Every day is Gemini season here at Google. 在谷歌,每天都是Gemini季。
- 02:07 — Sundar Pichai:
Original (EN): And so we are shipping faster than ever. 因此,我们的产品发布速度比以往任何时候都快。
- 03:48 — Sundar Pichai:
Original (EN): Artificial Pokémon Intelligence. 人造宝可梦智能。
- 06:38 — Sundar Pichai:
Original (EN): Google Search is bringing generative AI to more people than any other product in the world. 谷歌搜索正在将生成式AI带给比世界上任何其他产品都更多的人。
- 18:30 — Demis Hassabis:
Original (EN): We’re living through a remarkable moment in history, where AI is making possible an amazing new future. 我们正处在历史上的一个非凡时刻,AI正在让一个惊人的新未来成为可能。
- 48:40 — Liz Reid:
Original (EN): Today you’ll see how you can ask anything. 今天你将看到,你可以问任何问题。
- 01:10:03 — Josh Woodward:
Original (EN): One that doesn’t just respond, but understands. One that doesn’t just wait, but anticipates. 一个不仅能回应,还能理解的助手。一个不仅会等待,还会预测的助手。
- 01:53:44 — Sundar Pichai:
Original (EN): It was a reminder of how incredible the power of technology is to inspire, to awe, and to move us forward. 这提醒我们,科技的力量是多么不可思议,它能激励我们,让我们敬畏,并推动我们前进。
视觉信号(纯转录看不到的)
屏幕文字时刻 (7)
- 00:06 ·
一个形状像数字10的卫星环绕地球。- 这是主题演讲倒计时的开场视觉,由AI创造性地生成,代表数字10。
- 02:08 ·
一个标题为“以不懈的速度发布”的时间线,显示了自上次I/O以来发布的数十个模型和产品。- 直观地强化了谷歌关于其在AI领域加速创新和产品发布速度的核心信息。
- 02:25 ·
一个标题为“模型进展”的条形图,显示了从Gemini 1.0到2.5 Pro的LMArena Elo分数的急剧增长。- 提供了一个清晰、量化的可视化,展示了他们在18个月内AI模型能力的快速提升。
- 04:51 ·
一个帕累托前沿图,显示谷歌的模型在性能与成本方面占据了最佳的左上象限。- 以图形方式论证了谷歌以最有效的价格点提供了最佳性能,并正在推动可能性的整个前沿。
- 05:20 ·
一个显示“月度处理Token数”在一年内从9.7万亿飙升至480万亿以上的折线图。- 戏剧性地说明了谷歌产品和API中AI采用和使用量的大幅增长了50倍。
- 33:10 ·
标题卡“Gemini 2.5 Pro Deep Think”。- 为其顶级模型引入了一种新的、更强大的推理模式,标志着对更深层次、更复杂问题解决的关注。
- 01:13:05 ·
屏幕上出现“个人化、主动、强大”的字样。- 这三个词定义了谷歌对其通用AI助手Gemini的核心愿景。
舞台时刻 (7)
- 01:14 · Sundar Pichai走上一个大型圆形舞台,面前是户外圆形剧场里的庞大观众群。
- 02:43 · 观众为Gemini 2.5 Pro的基准测试结果热烈鼓掌。
- 18:11 · Sundar Pichai拥抱并欢迎Demis Hassabis上台。
- 47:32 · 在宣布AI模式将在美国推出时,观众给予了热烈而持续的掌声。
- 01:43:50 · Nishtha戴着原型Android XR眼镜走上舞台,并与Shahram Izadi互动。
- 01:46:04 · Giannis Antetokounmpo在Android XR眼镜演示中惊喜客串,与Nishtha击掌。
- 01:53:53 · Sundar Pichai返回舞台致闭幕词,随后播放了一段社区创作的最终精彩集锦。
视觉演示 (5)
- 00:06 · AI生成的视频倒计时
- 一段由AI生成的视觉震撼、超现实和照片般逼真的视频剪辑蒙太奇,每个剪辑都创造性地融入了从10到1的数字。
- 01:30:35 · Flow AI电影制作工具演示
- 展示了“Flow”的用户界面,用户在其中结合图像和文本提示来生成一系列视频剪辑,包括一辆上面有只巨型鸡的飞行汽车。
- 01:28:07 · 《Ancestra》短片预告
- 由Eliza McNitt执导、Darren Aronofsky监制的短片预告片,展示了由Veo生成的真人实景与超现实、宇宙和微观视觉效果的混合。
- 37:42 · Project Astra 原型眼镜演示
- 一段预先录制的、来自佩戴原型眼镜用户的**人称视角视频,展示了AI助手实时识别物体、记忆位置和控制屏幕元素。
- 59:44 · Search Live 视频演示
- 一段用户将手机摄像头对准现实世界物体(科学实验、植物、遥控器)并与Gemini进行实时对话式搜索体验的蒙太奇。
制作信号 (7)
- 00:00 · 预录制的AI生成视频开场
- 01:14 · 切换到现场舞台演示
- 08:57 · 预录制的演示片段 (Google Meet 翻译)
- 37:42 · 预录制的演示片段 (Project Astra)
- 59:44 · 预录制的演示片段 (Search Live)
- 01:03:34 · 现场舞台演示 (虚拟试穿)
- 01:41:46 · 现场舞台演示 (Android XR 眼镜)
关键主题
生成式AI · Gemini模型家族 · 多模态 · AI智能体 · 谷歌搜索 · AI Overviews · 开发者工具 · 创意AI工具 · 视频生成 (Veo) · 图像生成 (Imagen) · Android XR · AI助手 · 个性化 · AI用于科学
总结要点
- 谷歌全力投入“Gemini时代”,将其最先进的AI模型整合到其整个产品生态系统中,从搜索、Android到创意和开发者工具。
- 谷歌产品的未来是智能体化、个性化和主动化的;AI不仅会响应查询,还会预测需求并代表用户执行多步骤任务。
- 多模态是谷歌战略的核心,重点关注能够看、听、说的实时对话式AI,这一点通过Gemini Live和Project Astra眼镜原型得到了展示。
- 谷歌正在迅速推出新模型(Gemini 2.5 Pro/Flash、Veo 3、Imagen 4)和功能,强调速度,并使开发者和用户能够“今天”或“很快”获得最先进的功能。
- 搜索正在通过“AI模式”被彻底重塑,从简单的答案提供者转变为能够进行深度分析和可视化的综合研究和规划伙伴。
- 随着Android XR的推出,一个新的硬件前沿正在开启,这是一个为眼镜和头戴设备打造的平台,将作为一个持久的、情境感知的AI助手的自然交互界面。
- 谷歌正在大力投资生成式媒体,提供像Veo、Imagen和Lyria这样的强大工具来赋能创作者和电影制作人,模糊了提示工程与专业制作之间的界限。