Google I/O ‘24 主 Keynote(完整版)

Year: 2024 · ▶ 在 YouTube 观看

Sundar Pichai (CEO) · Liz Reid (VP, Search) · Rose Yao (VP of Product, Google Search) · Aparna Pappu (VP & GM, Google Workspace) · Sissie Hsiao (VP & GM, Gemini Experiences and Google Assistant) · Sameer Samat (President, Android Ecosystem) · Dave Burke (VP, Engineering, Android) · Josh Woodward (VP, Google Labs) · Demis Hassabis (CEO) · Doug Eck (Senior Research Director) · James Manyika (SVP, Research, Technology & Society) · Tony Vincent (Director of Product Management)

Switch language → en

话题段落 (17)

  • 00:00:00 · AI之年与Gemini时代 — Sundar Pichai
    • Sundar Pichai 在主题演讲开场回顾了过去一年AI的快速发展,并介绍了作为谷歌AI优先方法核心主题的‘Gemini时代’。
  • 00:05:59 · Gemini在Google Photos中的应用 — Sundar Pichai
    • 演示由Gemini驱动的新功能‘Ask Photos’,该功能允许用户就其照片库提出自然语言问题。
  • 00:07:00 · Ask Photos 演示 — Sundar Pichai
    • Sundar Pichai 展示了Ask Photos如何通过分析多年的照片来找到车牌号码并追踪孩子的游泳进步。
  • 01:00:11 · Google Workspace中的AI队友 — Aparna Pappu
    • Aparna Pappu 介绍了一个名为‘Chip’的虚拟AI队友,可以将其添加到Google Chat中以监控项目、提供背景信息并促进协作。
  • 01:08:25 · Gemini应用和实时体验 — Sissie Hsiao
    • Sissie Hsiao 详细介绍了将Gemini应用打造为个人AI助手的愿景,并推出了用于对话式语音交互的Gemini Live和用于创建个性化专家的Gems。
  • 01:18:25 · 安卓与核心AI — Sameer Samat
    • Sameer Samat 解释了安卓如何以AI为核心进行重塑,重点介绍了Circle to Search和设备端Gemini Nano的集成。
  • 01:22:17 · 安卓上的Gemini与情境感知 — Dave Burke
    • Dave Burke 演示了安卓上的Gemini将如何变得具有情境感知能力,通过理解屏幕上的内容(如分析YouTube视频或PDF)来提供有用的建议。
  • 01:30:52 · Gemini 1.5与开发者工具 — Josh Woodward
    • Josh Woodward 宣布了Gemini 1.5系列(Pro和Flash)的更新、新的API功能(如上下文缓存),并介绍了Gemma开源模型系列,包括新的PaliGemma。
  • 01:40:11 · 负责任的AI与安全 — James Manyika
    • James Manyika 讨论了谷歌在负责任AI方面的方法,包括AI辅助的红队测试以及将SynthID水印扩展到文本和视频。
  • 01:44:43 · AI促进社会公益与学习 — James Manyika
    • Manyika 强调了AI如何被用于社会公益,从使用AlphaFold进行科学研究到教育,并介绍了为学习而生的新模型系列LearnLM。
  • 01:49:18 · 结束语与AI计数 — Sundar Pichai
    • Sundar Pichai 总结了谷歌从研究和基础设施到产品和平台的全栈AI战略,并以一个幽默的统计结束:主题演讲中说了多少次‘AI’。
  • 02:09:08 · Google DeepMind与Project Astra — Demis Hassabis
    • Demis Hassabis 介绍了Google DeepMind对通用AI智能体的愿景,并揭晓了实时多模态AI助手原型Project Astra。
  • 02:21:21 · 生成式媒体模型:Imagen 3、Music AI Sandbox、Veo — Demis Hassabis
    • Hassabis 宣布了一套新的生成式媒体模型,包括用于图像的Imagen 3、用于音乐创作的Music AI Sandbox以及用于高质量视频生成的Veo。
  • 02:51:37 · Gemini时代的谷歌搜索 — Liz Reid
    • Liz Reid 解释了生成式AI如何改变谷歌搜索,引入了AI Overviews、多步推理和AI组织的结果页面来处理复杂查询。
  • 03:04:04 · 视频搜索演示 — Rose Yao
    • Rose Yao 演示了一项新功能,即使用视频在谷歌搜索中提问,实时解决了一个坏掉的唱机的问题。
  • 03:31:30 · Music AI Sandbox与艺术家合作 — Doug Eck
    • Doug Eck 展示了为艺术家设计的工具套件Music AI Sandbox,并介绍了与Wyclef Jean和Marc Rebillet等音乐家的合作。
  • 03:55:31 · Gemini for Workspace — Aparna Pappu
    • Aparna Pappu 宣布由Gemini驱动的Workspace侧边栏正式可用,并演示了Gmail中总结和问答的新功能。

产品发布 (36)

  • 01:00:30 · AlphaCode 2 (研究)
    • 解决编程竞赛问题 · 高级问题解决能力
    • 研究阶段
  • 01:15:40 · AI (通用主题)
    • 集成于所有谷歌产品 · 多模态能力 · 智能体体验
    • 贯穿整个演示
  • 01:31:31 · Google I/O (2024)
    • 年度开发者大会 · 展示最新的谷歌技术 · 发布关于AI、安卓、搜索等的公告
    • 活动于2024年5月举行
  • 01:46:48 · Sundar Pichai (演讲者)
    • 谷歌CEO · 发表开场和闭幕演讲 · 概述“Gemini时代”愿景
    • 活动演讲者
  • 02:22:00 · Gemini时代 (战略倡议)
    • 原生多模态模型 · 长上下文窗口能力 · AI智能体的基础
    • 主题演讲的基础主题
  • 02:55:40 · Gemini (AI模型系列)
    • 原生多模态(文本、图像、视频、代码) · 驱动众多谷歌产品 · 提供Pro、Flash和Nano尺寸
    • 在不同产品和API中有不同的可用性
  • 03:37:38 · AI Overviews (谷歌搜索中的一项功能)
    • 为搜索查询生成AI驱动的摘要 · 综合来自多个来源的信息 · 处理复杂、多步骤的问题
    • 本周在美国推出,年底前覆盖超过10亿人。
  • 06:02:00 · Ask Photos (Google Photos中的一项功能)
    • 使用Gemini回答关于您照片库的自然语言问题 · 可以在照片中找到特定信息(例如车牌) · 总结一段时间内的主题和进展
    • 今年夏天推出
  • 08:42:00 · Gemini 1.5 Pro (更新模型)
    • 在Gemini Advanced中向消费者提供100万token上下文窗口 · 在翻译、编码和推理方面质量提升 · 向开发者提供200万token上下文窗口的私密预览
    • 今日向全球开发者开放;今日在Gemini Advanced中提供100万token。
  • 11:27:00 · Gemini 1.5 Flash (新模型)
    • 更轻量、更快的模型 · 针对大规模速度和效率进行了优化 · 保留了多模态推理和长上下文
    • 今日在Google AI Studio和Vertex AI中可用。
  • 12:48:00 · AI智能体愿景 (未来概念)
    • 展现推理、规划和记忆能力的智能系统 · 代表您跨软件和系统工作 · 在用户监督下运行
    • 未来发展
  • 14:22:00 · NotebookLM与音频概览 (新功能)
    • 从源材料生成对话式音频讨论 · 允许用户加入对话并提问 · 由Gemini 1.5 Pro驱动
    • 展示了原型
  • 24:51:00 · Project Astra (原型)
    • 实时、多模态AI智能体 · 以对话方式理解和回应视频和语音输入 · 能够识别物体、代码并记住上下文(例如眼镜放在哪里)
    • 相关能力将于今年晚些时候登陆谷歌产品。
  • 29:13:00 · 生成式媒体工具 (模型套件)
    • 用于生成逼真照片的Imagen 3 · 用于音乐创作的Music AI Sandbox · 用于生成高质量1080p视频的Veo
    • 各不相同,部分可通过候补名单向特定创作者提供。
  • 29:51:00 · Imagen 3 (新图像模型)
    • 谷歌迄今为止最高质量的文本到图像模型 · 更逼真,伪影更少 · 改进了对自然语言提示和文本渲染的理解
    • 今日可在ImageFX中注册试用。
  • 31:31:00 · Music AI Sandbox (创意工具套件)
    • 专业的音乐AI工具套件 · 可以从头开始创作新的乐器部分 · 允许在音轨之间进行风格转换
    • 与Wyclef Jean、Marc Rebillet等艺术家合作开发中。
  • 34:05:00 · Veo (新视频模型)
    • 从文本、图像和视频提示生成高质量1080p视频 · 可以创建超过一分钟的视频 · 理解“航拍”或“延时摄影”等电影术语
    • 通过VideoFX的候补名单向特定创作者提供。
  • 39:00:00 · Trillium (第六代TPU)
    • 每芯片计算性能提升4.7倍 · 谷歌迄今为止最高效、性能最强的TPU
    • 2024年底向云客户提供。
  • 39:30:00 · Axion Processors (新硬件)
    • 谷歌首款基于Arm的定制CPU · 行业领先的性能和能效
    • 上个月已宣布。
  • 41:36:00 · 谷歌搜索 (Gemini时代更新)
    • 用于摘要答案的AI Overviews · 用于复杂查询的多步推理 · 用于头脑风暴的AI组织的结果页面
    • 从今天开始推出。
  • 45:16:00 · 搜索中的多步推理 (新能力)
    • 将复杂问题分解为更小的部分 · 可以为规划(如旅行、餐饮)研究和综合信息 · 作为AI智能体代表用户进行研究
    • 即将登陆搜索。
  • 50:26:00 · 视频搜索 (新能力)
    • 允许用户录制视频来提问 · AI分析视频以理解问题(例如坏掉的唱机) · 在AI Overview中提供故障排除步骤
    • 即将推出。
  • 55:52:00 · Gemini for Workspace 侧边栏 (正式发布)
    • 将Gemini集成到Workspace应用(Gmail、Docs等)的侧边 · 提供摘要、问答和上下文操作 · 由Gemini 1.5 Pro驱动
    • 下个月正式可用。
  • 59:28:00 · Gmail功能(摘要、问答、上下文智能回复) (新功能)
    • 总结长邮件串 · 就收件箱内容提问 · 理解整个对话的上下文智能回复
    • 本月向Labs用户推出(摘要),7月推出(问答、智能回复)。
  • 01:03:02 · Workspace中的AI工作流 (新能力)
    • 跨Workspace应用自动化多步骤流程 · 示例:将Gmail中的收据整理到Drive文件夹和Sheets跟踪器中 · 用户可以触发和自定义这些工作流
    • 今年9月向Labs用户推出。
  • 01:04:27 · AI队友 (原型)
    • 一个由Gemini驱动的虚拟队友,拥有自己的身份和工作区账户 · 可以在团队中被分配任务和角色 · 在Google Chat等应用中监控项目、提供背景信息并促进协作
    • 面向2025年及以后的原型。
  • 01:09:28 · Gemini Live (新体验)
    • 与Gemini进行深入的对话式语音交互 · 允许用户自然地打断和提出后续问题 · 稍后将整合Project Astra的视频理解能力
    • 今年夏天推出。
  • 01:10:17 · Gems (Gemini中的新功能)
    • 允许用户创建Gemini的定制版本 · 充当任何指定主题的个人专家(例如写作教练、瑜伽伙伴) · 保存指令以供重复使用
    • 未来几个月内推出。
  • 01:20:27 · Circle to Search(作业帮助) (新能力)
    • 解决复杂的数学和物理应用题 · 提供分步说明,而不仅仅是答案 · 将处理涉及符号公式、图表和图形的更复杂问题
    • 今日可用,更复杂的问题解决功能将于今年晚些时候推出。
  • 01:28:08 · TalkBack与Gemini Nano (更新)
    • 为未标记的图像提供更丰富、更清晰的描述 · 使用具有多模态能力的设备端Gemini Nano · 离线工作
    • 今年晚些时候推出。
  • 01:29:05 · 设备端诈骗检测 (新功能)
    • 在通话期间使用Gemini Nano实时监听诈骗模式 · 如果对话看起来可疑,则提供实时警报 · 所有处理都在设备上完成以保护隐私
    • 测试中,今年晚些时候会有更多更新。
  • 01:36:01 · Gemma (开源模型系列)
    • 轻量级、最先进的开源模型 · 与Gemini基于相同的研究成果构建 · 包括2B和7B参数大小
    • 现已可用。
  • 01:36:39 · PaliGemma (新开源模型)
    • 谷歌首个视觉-语言开源模型 · 针对图像字幕和视觉问答进行了优化 · 基于PaLI-3架构
    • 现已可用。
  • 01:37:02 · Gemma 2 (新开源模型)
    • 新的270亿参数模型 · 针对在TPU和下一代GPU上运行进行了优化 · 性能优于两倍大小的模型
    • 6月可用。
  • 01:43:27 · SynthID (扩展能力)
    • 为AI生成内容添加不可感知的数字水印 · 现已扩展到文本和视频模态 · 帮助识别AI生成内容以打击虚假信息
    • 文本水印技术将在未来几个月内开源。
  • 01:45:53 · LearnLM (新模型系列)
    • 基于Gemini的模型系列,为学习进行了微调 · 以教育研究为基础 · 驱动Gemini中的学习教练和YouTube中的对话式辅导等功能
    • 已集成到各种谷歌产品中。

时间承诺 (23)

  • 03:37:00 (This week) — AI Overviews将于本周开始向美国所有用户推出。
  • 03:42:00 (Soon) — AI Overviews将很快推广到更多国家。
  • 03:50:00 (By end of year) — 到今年年底,AI Overviews将覆盖超过10亿用户。
  • 07:38:00 (This summer) — Ask Photos将于今年夏天推出。
  • 11:27:00 (Today) — Gemini 1.5 Pro的改进版本将向全球所有开发者提供。
  • 11:42:00 (Today) — 具有100万上下文的Gemini 1.5 Pro现已在Gemini Advanced中直接向消费者提供。
  • 12:04:00 (Today (waitlist)) — 上下文窗口将扩展到200万token,并向开发者提供私密预览。
  • 13:54:00 (Today) — Gemini 1.5 Pro今日在Workspace Labs中可用。
  • 28:55:00 (Later this year) — 部分Project Astra智能体功能将登陆谷歌产品。
  • 30:01:00 (Today) — 注册即可在ImageFX中试用Imagen 3。
  • 37:10:00 (Today (waitlist)) — 特定创作者可通过候补名单在VideoFX中访问Veo。
  • 39:19:00 (Late 2024) — Trillium TPU将向云客户提供。
  • 39:49:00 (Early 2025) — NVIDIA的Blackwell GPU将在Google Cloud中可用。
  • 49:52:00 (Soon) — AI组织的搜索结果页面将应用于电影、音乐、书籍、酒店、购物等领域。
  • 55:52:00 (Next month) — Workspace中新的由Gemini驱动的侧边栏将正式可用。
  • 59:28:00 (This month / July) — Gmail中的新Gemini功能(摘要、问答、上下文智能回复)将向Labs用户推出。
  • 01:03:02 (This September) — Workspace中的AI工作流将向Labs用户提供。
  • 01:09:28 (This summer) — Gemini Live即将推出。
  • 01:10:17 (In the coming months) — Gems将在Gemini中推出。
  • 01:21:25 (Later this year) — Circle to Search将能够解决涉及符号公式、图表和图形的更复杂问题。
  • 01:28:08 (Later this year) — TalkBack与Gemini Nano的改进即将到来。
  • 01:37:02 (In June) — Gemma 2将可用。
  • 01:44:02 (In the coming months) — SynthID文本水印技术将开源。

演示 (11)

  • 06:26:00 ✓ · Ask Photos - 车牌 — Sundar Pichai (旁白)
    • 用户向Google Photos提问‘我的车牌号是多少’,应用识别出正确的汽车并从照片中显示车牌号码。
  • 06:56:00 ✓ · Ask Photos - 游泳进步 — Sundar Pichai (旁白)
    • 用户询问女儿的游泳进步情况,Gemini分析了包括游泳证书在内的多年照片,并生成了摘要回答。
  • 12:55:00 ✓ · Gmail中的Gemini - 摘要与问答 — Aparna Pappu (旁白)
    • 用户总结了一个关于学校活动的长邮件串,然后提问以比较不同邮件中的屋顶报价,Gemini以结构化表格的形式回答了问题。
  • 13:25:00 ✓ · Google Drive中的Gemini - 会议纪要 — Aparna Pappu (旁白)
    • 一位错过PTA会议的用户要求Gemini总结存储在Google Drive中的一小时会议录音,Gemini提供了关键要点。
  • 14:22:00 ✓ · NotebookLM - 音频概览 — Josh Woodward
    • Josh Woodward展示了NotebookLM如何利用科学材料生成一个由两位主持人进行的对话式音频播客,然后他加入对话并提出了一个澄清性问题。
  • 26:20:00 ✓ · Project Astra - 实时多模态智能体 — Unnamed Google employee
    • 用户将手机摄像头对准房间四周,AI智能体识别出物体(扬声器、高音单元),为蜡笔提供创意押韵词,解释显示器上的一行代码,从窗外景色识别出伦敦的街区,并记住了用户眼镜放置的位置。
  • 50:45:00 ✓ · 视频搜索 - 唱机故障排除 — Rose Yao
    • Rose Yao录制了一段唱机唱臂无法固定的视频,并向谷歌搜索提问原因。搜索识别出品牌和型号,诊断问题为不平衡,并在AI Overview中提供了故障排除步骤。
  • 01:04:49 ✓ · AI队友‘Chip’ — Tony Vincent
    • Tony Vincent演示了Google Chat中的AI队友‘Chip’,它在人类团队成员的提示下,总结了项目状态,识别了相互冲突的决策,并创建了一个文档来帮助解决问题。
  • 01:20:40 ✓ · Circle to Search - 作业帮助 — Sameer Samat (旁白)
    • 用户在手机上圈出一个物理应用题,Circle to Search提供了计算汽车加速度的分步解答。
  • 01:22:47 ✓ · 安卓上的Gemini - 情境感知 — Dave Burke
    • Dave Burke展示了Gemini作为安卓上的一个浮层,它分析了一个YouTube视频以回答关于匹克球规则的问题,并分析了一个PDF以回答关于旋转发球的问题,展示了其理解屏幕内容的能力。
  • 01:29:05 ✓ · 设备端诈骗检测 — Dave Burke
    • 一个模拟电话通话显示,用户接到了一个来自其‘银行’的可疑电话。在设备上运行的Gemini Nano检测到类似诈骗的语言(例如要求转账),并显示了实时的‘可能是诈骗’警报。

金句 (8)

  • 02:18:00 — Sundar Pichai:

    Original (EN): At Google though, we are fully in our Gemini era. You’ll hear a lot about that today. 但在谷歌,我们已全面进入我们的 Gemini 时代。今天你们会听到很多关于这方面的内容。

  • 03:18:00 — Sundar Pichai:

    Original (EN): It’s a big step in turning any input into any output. An I/O for a new generation. 这是将任何输入转化为任何输出的一大步。一个属于新一代的I/O。

  • 12:04:00 — Sundar Pichai:

    Original (EN): So today, we are expanding the context window to 2 million tokens. 所以今天,我们将上下文窗口扩展到200万token。

  • 25:00:00 — Demis Hassabis:

    Original (EN): For a long time, we’ve wanted to build a universal AI agent that can be truly helpful in everyday life. 长久以来,我们一直想构建一个能在日常生活中真正有用的通用AI智能体。

  • 43:28:00 — Liz Reid:

    Original (EN): And Google will do the Googling for you. 谷歌将为你“谷歌”。

  • 01:19:00 — Sameer Samat:

    Original (EN): This is a once-in-a-generation moment to reinvent what phones can do. 这是一个重新定义手机功能的千载难逢的时刻。

  • 01:49:46 — Sundar Pichai:

    Original (EN): How many times have we mentioned AI today? And since a big theme today has been letting Google do the work for you, we went ahead and counted so that you don’t have to. 我们今天提到了多少次AI?既然今天的一个大主题是让谷歌为你完成工作,我们已经帮你数好了,所以你就不必数了。

  • 01:50:15 — Sundar Pichai:

    Original (EN): That might be a record in how many times someone has said AI. 121. 这可能是一个人说AI次数的记录。121次。

视觉信号(纯转录看不到的)

屏幕文字时刻 (12)

  • 00:00:10 · 日历上显示的 Google IO '23
    • 确立了开场混剪视频中所强调的一年进展时间范围。
  • 01:00:50 · Alpha Code 2 - 破解编程竞赛
    • 特定AI研究成果的标题卡。
  • 02:55:40 · Gemini时代
    • 整个演示的关键品牌,标志着谷歌的战略重点。
  • 03:57:00 · Gemini 1.5 Pro - 100万 tokens
    • 突出了正在讨论的模型巨大的上下文窗口。
  • 05:37:00 · AI Overviews - 在美国推出,并很快推广到更多国家
    • 宣布新搜索体验的正式名称和推出计划。
  • 07:39:00 · Ask Photos with Gemini
    • 为Google Photos引入的新功能打上品牌烙印。
  • 12:09:00 · Gemini 1.5 Pro - 200万 tokens
    • 将上下文窗口翻倍的重大宣布,赢得了观众的掌声。
  • 24:51:00 · Project Astra
    • 介绍了谷歌新AI智能体原型的名称。
  • 30:06:00 · Imagen 3
    • 宣布谷歌下一代图像生成模型。
  • 34:05:00 · Veo
    • 宣布谷歌新的生成式视频模型。
  • 01:10:14 · Gems
    • 介绍了可定制Gemini专家的品牌名称。
  • 01:50:00 · 120 - AI计数
    • 一个幽默、自我意识的时刻,承认了‘AI’一词的大量使用。

舞台时刻 (7)

  • 00:00:00 · 一段快节奏、制作精良的混剪视频展示了过去一年AI的进展和新闻头条。
  • 01:30:00 · Sundar Pichai 走上Shoreline Amphitheatre的巨大户外舞台,面向欢呼雀跃、座无虚席的观众。
  • 02:51:00 · Sundar Pichai 将舞台交给Liz Reid,讨论谷歌搜索的未来。
  • 12:08:00 · 观众为宣布200万token上下文窗口而热烈鼓掌。
  • 20:51:00 · Sundar Pichai 首次在I/O大会上将Google DeepMind的CEO Demis Hassabis介绍上台。
  • 01:49:18 · Sundar Pichai 回到舞台致闭幕词。
  • 01:50:00 · 一张幻灯片显示‘AI计数’为120,Sundar随后将其更新为121,引得观众大笑。

视觉演示 (7)

  • 06:26:00 · 智能手机上的Google Photos用户界面。
    • 用户在搜索栏中输入自然语言查询。应用显示一张汽车尾部的照片,高亮显示车牌,并将号码作为答案输出。
  • 26:20:00 · 智能手机上的Project Astra原型。
    • 通过手机摄像头的第一人称视角显示,AI实时识别物体,解释屏幕上的代码,并回忆起早些时候看到的一副眼镜的位置。
  • 30:13:00 · 由Imagen 3生成的图像。
    • 展示了一只逼真的狼、一幅精细的风景画、一只折纸猫头鹰以及由彩虹羽毛渲染的‘LIGHT’一词,以展示该模型的质量和文本渲染能力。
  • 35:52:00 · 由Veo生成的视频。
    • 展示了各种高质量、电影感的视频片段,包括一辆汽车驶过未来城市、一艘帆船在海上航行、一位在内罗毕的女士以及日出时的火山口。
  • 50:45:00 · 在智能手机上使用视频输入的谷歌搜索。
    • 用户录制了他们出故障的唱机。搜索结果页面显示了一个AI Overview,识别出具体型号(Audio-Technica LP120)并提供了修复不平衡唱臂的步骤。
  • 01:00:40 · Gmail和Google Sheets中的AI工作流。
    • Gmail中的Gemini侧边栏提议整理收据。然后它创建了一个新的Drive文件夹和一个Google Sheet,并自动从多个邮件中提取供应商、日期和费用等数据填充表格。
  • 01:04:49 · Google Chat中的AI队友‘Chip’。
    • 界面显示‘Chip’是聊天室的一员。当被提问时,它综合了来自聊天和链接文档的信息,提供了项目时间线并指出了潜在问题。

制作信号 (6)

  • 00:00:00 · 预先录制、经过高度剪辑的开场混剪视频。
  • 01:30:00 · 在户外圆形剧场的现场舞台演示。
  • 08:41:00 · 预先录制的包含开发者对Gemini 1.5评价的片段。
  • 26:20:00 · 预先录制的、一镜到底的Project Astra原型演示。
  • 31:58:00 · 预先录制的展示音乐家与Music AI Sandbox合作的片段。
  • 35:37:00 · 预先录制的展示Donald Glover及其工作室Gilga与Veo合作的片段。

关键主题

生成式AI · Gemini模型 · 多模态 · 长上下文窗口 · AI智能体 · 谷歌搜索 · 安卓AI · 开发者工具 · AI安全 · 创意工具 · Google Workspace · 设备端AI · 开源模型 · AI基础设施

总结要点

  • 谷歌将“Gemini时代”定位为一次根本性的变革,将其最先进的AI整合到从搜索、安卓到Workspace的整个产品生态系统中。
  • AI交互的未来是智能体化和多模态的;谷歌的愿景是让AI通过理解跨不同应用和数据类型(文本、图像、视频、音频)的复杂、多步骤任务,主动‘为你完成工作’。
  • 上下文窗口大小的大幅增加(目前预览版已达200万token)是一个关键的技术差异化因素,能够对大型文档、代码库和数小时的视频进行深度分析。
  • 谷歌正在构建一个全栈AI平台,从定制的Trillium TPU和液冷数据中心,到一系列模型(Gemini Pro, Flash, Nano)和开源替代品(Gemma),旨在为任何开发者或企业工作负载提供最佳工具。
  • 新的生成式媒体模型(Imagen 3, Veo, Music AI Sandbox)在质量和创意控制方面展示了显著的飞跃,标志着谷歌大力进军AI驱动的内容创作领域。
  • 设备端AI(Gemini Nano)是安卓的战略重点,它能够在无需网络连接的情况下,实现实时诈骗检测和增强的可访问性等快速、私密且具有情境感知的功能。
  • 谷歌搜索正在被彻底重塑,从一个链接列表转变为一个由AI驱动的答案引擎,它能够综合信息、处理复杂的规划,并为头脑风暴组织结果。
  • 在推动能力的同时,谷歌也通过SynthID文本和视频水印等技术解决方案,以及在安全和标准方面的合作努力,强调其对负责任AI的承诺。