Google I/O ‘24 主 Keynote(完整版)
Year: 2024 · ▶ 在 YouTube 观看
Sundar Pichai (CEO) · Liz Reid (VP, Search) · Rose Yao (VP of Product, Google Search) · Aparna Pappu (VP & GM, Google Workspace) · Sissie Hsiao (VP & GM, Gemini Experiences and Google Assistant) · Sameer Samat (President, Android Ecosystem) · Dave Burke (VP, Engineering, Android) · Josh Woodward (VP, Google Labs) · Demis Hassabis (CEO) · Doug Eck (Senior Research Director) · James Manyika (SVP, Research, Technology & Society) · Tony Vincent (Director of Product Management)
话题段落 (17)
- 00:00:00 · AI之年与Gemini时代 — Sundar Pichai
- Sundar Pichai 在主题演讲开场回顾了过去一年AI的快速发展,并介绍了作为谷歌AI优先方法核心主题的‘Gemini时代’。
- 00:05:59 · Gemini在Google Photos中的应用 — Sundar Pichai
- 演示由Gemini驱动的新功能‘Ask Photos’,该功能允许用户就其照片库提出自然语言问题。
- 00:07:00 · Ask Photos 演示 — Sundar Pichai
- Sundar Pichai 展示了Ask Photos如何通过分析多年的照片来找到车牌号码并追踪孩子的游泳进步。
- 01:00:11 · Google Workspace中的AI队友 — Aparna Pappu
- Aparna Pappu 介绍了一个名为‘Chip’的虚拟AI队友,可以将其添加到Google Chat中以监控项目、提供背景信息并促进协作。
- 01:08:25 · Gemini应用和实时体验 — Sissie Hsiao
- Sissie Hsiao 详细介绍了将Gemini应用打造为个人AI助手的愿景,并推出了用于对话式语音交互的Gemini Live和用于创建个性化专家的Gems。
- 01:18:25 · 安卓与核心AI — Sameer Samat
- Sameer Samat 解释了安卓如何以AI为核心进行重塑,重点介绍了Circle to Search和设备端Gemini Nano的集成。
- 01:22:17 · 安卓上的Gemini与情境感知 — Dave Burke
- Dave Burke 演示了安卓上的Gemini将如何变得具有情境感知能力,通过理解屏幕上的内容(如分析YouTube视频或PDF)来提供有用的建议。
- 01:30:52 · Gemini 1.5与开发者工具 — Josh Woodward
- Josh Woodward 宣布了Gemini 1.5系列(Pro和Flash)的更新、新的API功能(如上下文缓存),并介绍了Gemma开源模型系列,包括新的PaliGemma。
- 01:40:11 · 负责任的AI与安全 — James Manyika
- James Manyika 讨论了谷歌在负责任AI方面的方法,包括AI辅助的红队测试以及将SynthID水印扩展到文本和视频。
- 01:44:43 · AI促进社会公益与学习 — James Manyika
- Manyika 强调了AI如何被用于社会公益,从使用AlphaFold进行科学研究到教育,并介绍了为学习而生的新模型系列LearnLM。
- 01:49:18 · 结束语与AI计数 — Sundar Pichai
- Sundar Pichai 总结了谷歌从研究和基础设施到产品和平台的全栈AI战略,并以一个幽默的统计结束:主题演讲中说了多少次‘AI’。
- 02:09:08 · Google DeepMind与Project Astra — Demis Hassabis
- Demis Hassabis 介绍了Google DeepMind对通用AI智能体的愿景,并揭晓了实时多模态AI助手原型Project Astra。
- 02:21:21 · 生成式媒体模型:Imagen 3、Music AI Sandbox、Veo — Demis Hassabis
- Hassabis 宣布了一套新的生成式媒体模型,包括用于图像的Imagen 3、用于音乐创作的Music AI Sandbox以及用于高质量视频生成的Veo。
- 02:51:37 · Gemini时代的谷歌搜索 — Liz Reid
- Liz Reid 解释了生成式AI如何改变谷歌搜索,引入了AI Overviews、多步推理和AI组织的结果页面来处理复杂查询。
- 03:04:04 · 视频搜索演示 — Rose Yao
- Rose Yao 演示了一项新功能,即使用视频在谷歌搜索中提问,实时解决了一个坏掉的唱机的问题。
- 03:31:30 · Music AI Sandbox与艺术家合作 — Doug Eck
- Doug Eck 展示了为艺术家设计的工具套件Music AI Sandbox,并介绍了与Wyclef Jean和Marc Rebillet等音乐家的合作。
- 03:55:31 · Gemini for Workspace — Aparna Pappu
- Aparna Pappu 宣布由Gemini驱动的Workspace侧边栏正式可用,并演示了Gmail中总结和问答的新功能。
产品发布 (36)
- 01:00:30 ·
AlphaCode 2(研究)- 解决编程竞赛问题 · 高级问题解决能力
- 研究阶段
- 01:15:40 ·
AI(通用主题)- 集成于所有谷歌产品 · 多模态能力 · 智能体体验
- 贯穿整个演示
- 01:31:31 ·
Google I/O(2024)- 年度开发者大会 · 展示最新的谷歌技术 · 发布关于AI、安卓、搜索等的公告
- 活动于2024年5月举行
- 01:46:48 ·
Sundar Pichai(演讲者)- 谷歌CEO · 发表开场和闭幕演讲 · 概述“Gemini时代”愿景
- 活动演讲者
- 02:22:00 ·
Gemini时代(战略倡议)- 原生多模态模型 · 长上下文窗口能力 · AI智能体的基础
- 主题演讲的基础主题
- 02:55:40 ·
Gemini(AI模型系列)- 原生多模态(文本、图像、视频、代码) · 驱动众多谷歌产品 · 提供Pro、Flash和Nano尺寸
- 在不同产品和API中有不同的可用性
- 03:37:38 ·
AI Overviews(谷歌搜索中的一项功能)- 为搜索查询生成AI驱动的摘要 · 综合来自多个来源的信息 · 处理复杂、多步骤的问题
- 本周在美国推出,年底前覆盖超过10亿人。
- 06:02:00 ·
Ask Photos(Google Photos中的一项功能)- 使用Gemini回答关于您照片库的自然语言问题 · 可以在照片中找到特定信息(例如车牌) · 总结一段时间内的主题和进展
- 今年夏天推出
- 08:42:00 ·
Gemini 1.5 Pro(更新模型)- 在Gemini Advanced中向消费者提供100万token上下文窗口 · 在翻译、编码和推理方面质量提升 · 向开发者提供200万token上下文窗口的私密预览
- 今日向全球开发者开放;今日在Gemini Advanced中提供100万token。
- 11:27:00 ·
Gemini 1.5 Flash(新模型)- 更轻量、更快的模型 · 针对大规模速度和效率进行了优化 · 保留了多模态推理和长上下文
- 今日在Google AI Studio和Vertex AI中可用。
- 12:48:00 ·
AI智能体愿景(未来概念)- 展现推理、规划和记忆能力的智能系统 · 代表您跨软件和系统工作 · 在用户监督下运行
- 未来发展
- 14:22:00 ·
NotebookLM与音频概览(新功能)- 从源材料生成对话式音频讨论 · 允许用户加入对话并提问 · 由Gemini 1.5 Pro驱动
- 展示了原型
- 24:51:00 ·
Project Astra(原型)- 实时、多模态AI智能体 · 以对话方式理解和回应视频和语音输入 · 能够识别物体、代码并记住上下文(例如眼镜放在哪里)
- 相关能力将于今年晚些时候登陆谷歌产品。
- 29:13:00 ·
生成式媒体工具(模型套件)- 用于生成逼真照片的Imagen 3 · 用于音乐创作的Music AI Sandbox · 用于生成高质量1080p视频的Veo
- 各不相同,部分可通过候补名单向特定创作者提供。
- 29:51:00 ·
Imagen 3(新图像模型)- 谷歌迄今为止最高质量的文本到图像模型 · 更逼真,伪影更少 · 改进了对自然语言提示和文本渲染的理解
- 今日可在ImageFX中注册试用。
- 31:31:00 ·
Music AI Sandbox(创意工具套件)- 专业的音乐AI工具套件 · 可以从头开始创作新的乐器部分 · 允许在音轨之间进行风格转换
- 与Wyclef Jean、Marc Rebillet等艺术家合作开发中。
- 34:05:00 ·
Veo(新视频模型)- 从文本、图像和视频提示生成高质量1080p视频 · 可以创建超过一分钟的视频 · 理解“航拍”或“延时摄影”等电影术语
- 通过VideoFX的候补名单向特定创作者提供。
- 39:00:00 ·
Trillium(第六代TPU)- 每芯片计算性能提升4.7倍 · 谷歌迄今为止最高效、性能最强的TPU
- 2024年底向云客户提供。
- 39:30:00 ·
Axion Processors(新硬件)- 谷歌首款基于Arm的定制CPU · 行业领先的性能和能效
- 上个月已宣布。
- 41:36:00 ·
谷歌搜索(Gemini时代更新)- 用于摘要答案的AI Overviews · 用于复杂查询的多步推理 · 用于头脑风暴的AI组织的结果页面
- 从今天开始推出。
- 45:16:00 ·
搜索中的多步推理(新能力)- 将复杂问题分解为更小的部分 · 可以为规划(如旅行、餐饮)研究和综合信息 · 作为AI智能体代表用户进行研究
- 即将登陆搜索。
- 50:26:00 ·
视频搜索(新能力)- 允许用户录制视频来提问 · AI分析视频以理解问题(例如坏掉的唱机) · 在AI Overview中提供故障排除步骤
- 即将推出。
- 55:52:00 ·
Gemini for Workspace 侧边栏(正式发布)- 将Gemini集成到Workspace应用(Gmail、Docs等)的侧边 · 提供摘要、问答和上下文操作 · 由Gemini 1.5 Pro驱动
- 下个月正式可用。
- 59:28:00 ·
Gmail功能(摘要、问答、上下文智能回复)(新功能)- 总结长邮件串 · 就收件箱内容提问 · 理解整个对话的上下文智能回复
- 本月向Labs用户推出(摘要),7月推出(问答、智能回复)。
- 01:03:02 ·
Workspace中的AI工作流(新能力)- 跨Workspace应用自动化多步骤流程 · 示例:将Gmail中的收据整理到Drive文件夹和Sheets跟踪器中 · 用户可以触发和自定义这些工作流
- 今年9月向Labs用户推出。
- 01:04:27 ·
AI队友(原型)- 一个由Gemini驱动的虚拟队友,拥有自己的身份和工作区账户 · 可以在团队中被分配任务和角色 · 在Google Chat等应用中监控项目、提供背景信息并促进协作
- 面向2025年及以后的原型。
- 01:09:28 ·
Gemini Live(新体验)- 与Gemini进行深入的对话式语音交互 · 允许用户自然地打断和提出后续问题 · 稍后将整合Project Astra的视频理解能力
- 今年夏天推出。
- 01:10:17 ·
Gems(Gemini中的新功能)- 允许用户创建Gemini的定制版本 · 充当任何指定主题的个人专家(例如写作教练、瑜伽伙伴) · 保存指令以供重复使用
- 未来几个月内推出。
- 01:20:27 ·
Circle to Search(作业帮助)(新能力)- 解决复杂的数学和物理应用题 · 提供分步说明,而不仅仅是答案 · 将处理涉及符号公式、图表和图形的更复杂问题
- 今日可用,更复杂的问题解决功能将于今年晚些时候推出。
- 01:28:08 ·
TalkBack与Gemini Nano(更新)- 为未标记的图像提供更丰富、更清晰的描述 · 使用具有多模态能力的设备端Gemini Nano · 离线工作
- 今年晚些时候推出。
- 01:29:05 ·
设备端诈骗检测(新功能)- 在通话期间使用Gemini Nano实时监听诈骗模式 · 如果对话看起来可疑,则提供实时警报 · 所有处理都在设备上完成以保护隐私
- 测试中,今年晚些时候会有更多更新。
- 01:36:01 ·
Gemma(开源模型系列)- 轻量级、最先进的开源模型 · 与Gemini基于相同的研究成果构建 · 包括2B和7B参数大小
- 现已可用。
- 01:36:39 ·
PaliGemma(新开源模型)- 谷歌首个视觉-语言开源模型 · 针对图像字幕和视觉问答进行了优化 · 基于PaLI-3架构
- 现已可用。
- 01:37:02 ·
Gemma 2(新开源模型)- 新的270亿参数模型 · 针对在TPU和下一代GPU上运行进行了优化 · 性能优于两倍大小的模型
- 6月可用。
- 01:43:27 ·
SynthID(扩展能力)- 为AI生成内容添加不可感知的数字水印 · 现已扩展到文本和视频模态 · 帮助识别AI生成内容以打击虚假信息
- 文本水印技术将在未来几个月内开源。
- 01:45:53 ·
LearnLM(新模型系列)- 基于Gemini的模型系列,为学习进行了微调 · 以教育研究为基础 · 驱动Gemini中的学习教练和YouTube中的对话式辅导等功能
- 已集成到各种谷歌产品中。
时间承诺 (23)
- 03:37:00 (This week) — AI Overviews将于本周开始向美国所有用户推出。
- 03:42:00 (Soon) — AI Overviews将很快推广到更多国家。
- 03:50:00 (By end of year) — 到今年年底,AI Overviews将覆盖超过10亿用户。
- 07:38:00 (This summer) — Ask Photos将于今年夏天推出。
- 11:27:00 (Today) — Gemini 1.5 Pro的改进版本将向全球所有开发者提供。
- 11:42:00 (Today) — 具有100万上下文的Gemini 1.5 Pro现已在Gemini Advanced中直接向消费者提供。
- 12:04:00 (Today (waitlist)) — 上下文窗口将扩展到200万token,并向开发者提供私密预览。
- 13:54:00 (Today) — Gemini 1.5 Pro今日在Workspace Labs中可用。
- 28:55:00 (Later this year) — 部分Project Astra智能体功能将登陆谷歌产品。
- 30:01:00 (Today) — 注册即可在ImageFX中试用Imagen 3。
- 37:10:00 (Today (waitlist)) — 特定创作者可通过候补名单在VideoFX中访问Veo。
- 39:19:00 (Late 2024) — Trillium TPU将向云客户提供。
- 39:49:00 (Early 2025) — NVIDIA的Blackwell GPU将在Google Cloud中可用。
- 49:52:00 (Soon) — AI组织的搜索结果页面将应用于电影、音乐、书籍、酒店、购物等领域。
- 55:52:00 (Next month) — Workspace中新的由Gemini驱动的侧边栏将正式可用。
- 59:28:00 (This month / July) — Gmail中的新Gemini功能(摘要、问答、上下文智能回复)将向Labs用户推出。
- 01:03:02 (This September) — Workspace中的AI工作流将向Labs用户提供。
- 01:09:28 (This summer) — Gemini Live即将推出。
- 01:10:17 (In the coming months) — Gems将在Gemini中推出。
- 01:21:25 (Later this year) — Circle to Search将能够解决涉及符号公式、图表和图形的更复杂问题。
- 01:28:08 (Later this year) — TalkBack与Gemini Nano的改进即将到来。
- 01:37:02 (In June) — Gemma 2将可用。
- 01:44:02 (In the coming months) — SynthID文本水印技术将开源。
演示 (11)
- 06:26:00 ✓ · Ask Photos - 车牌 — Sundar Pichai (旁白)
- 用户向Google Photos提问‘我的车牌号是多少’,应用识别出正确的汽车并从照片中显示车牌号码。
- 06:56:00 ✓ · Ask Photos - 游泳进步 — Sundar Pichai (旁白)
- 用户询问女儿的游泳进步情况,Gemini分析了包括游泳证书在内的多年照片,并生成了摘要回答。
- 12:55:00 ✓ · Gmail中的Gemini - 摘要与问答 — Aparna Pappu (旁白)
- 用户总结了一个关于学校活动的长邮件串,然后提问以比较不同邮件中的屋顶报价,Gemini以结构化表格的形式回答了问题。
- 13:25:00 ✓ · Google Drive中的Gemini - 会议纪要 — Aparna Pappu (旁白)
- 一位错过PTA会议的用户要求Gemini总结存储在Google Drive中的一小时会议录音,Gemini提供了关键要点。
- 14:22:00 ✓ · NotebookLM - 音频概览 — Josh Woodward
- Josh Woodward展示了NotebookLM如何利用科学材料生成一个由两位主持人进行的对话式音频播客,然后他加入对话并提出了一个澄清性问题。
- 26:20:00 ✓ · Project Astra - 实时多模态智能体 — Unnamed Google employee
- 用户将手机摄像头对准房间四周,AI智能体识别出物体(扬声器、高音单元),为蜡笔提供创意押韵词,解释显示器上的一行代码,从窗外景色识别出伦敦的街区,并记住了用户眼镜放置的位置。
- 50:45:00 ✓ · 视频搜索 - 唱机故障排除 — Rose Yao
- Rose Yao录制了一段唱机唱臂无法固定的视频,并向谷歌搜索提问原因。搜索识别出品牌和型号,诊断问题为不平衡,并在AI Overview中提供了故障排除步骤。
- 01:04:49 ✓ · AI队友‘Chip’ — Tony Vincent
- Tony Vincent演示了Google Chat中的AI队友‘Chip’,它在人类团队成员的提示下,总结了项目状态,识别了相互冲突的决策,并创建了一个文档来帮助解决问题。
- 01:20:40 ✓ · Circle to Search - 作业帮助 — Sameer Samat (旁白)
- 用户在手机上圈出一个物理应用题,Circle to Search提供了计算汽车加速度的分步解答。
- 01:22:47 ✓ · 安卓上的Gemini - 情境感知 — Dave Burke
- Dave Burke展示了Gemini作为安卓上的一个浮层,它分析了一个YouTube视频以回答关于匹克球规则的问题,并分析了一个PDF以回答关于旋转发球的问题,展示了其理解屏幕内容的能力。
- 01:29:05 ✓ · 设备端诈骗检测 — Dave Burke
- 一个模拟电话通话显示,用户接到了一个来自其‘银行’的可疑电话。在设备上运行的Gemini Nano检测到类似诈骗的语言(例如要求转账),并显示了实时的‘可能是诈骗’警报。
金句 (8)
- 02:18:00 — Sundar Pichai:
Original (EN): At Google though, we are fully in our Gemini era. You’ll hear a lot about that today. 但在谷歌,我们已全面进入我们的 Gemini 时代。今天你们会听到很多关于这方面的内容。
- 03:18:00 — Sundar Pichai:
Original (EN): It’s a big step in turning any input into any output. An I/O for a new generation. 这是将任何输入转化为任何输出的一大步。一个属于新一代的I/O。
- 12:04:00 — Sundar Pichai:
Original (EN): So today, we are expanding the context window to 2 million tokens. 所以今天,我们将上下文窗口扩展到200万token。
- 25:00:00 — Demis Hassabis:
Original (EN): For a long time, we’ve wanted to build a universal AI agent that can be truly helpful in everyday life. 长久以来,我们一直想构建一个能在日常生活中真正有用的通用AI智能体。
- 43:28:00 — Liz Reid:
Original (EN): And Google will do the Googling for you. 谷歌将为你“谷歌”。
- 01:19:00 — Sameer Samat:
Original (EN): This is a once-in-a-generation moment to reinvent what phones can do. 这是一个重新定义手机功能的千载难逢的时刻。
- 01:49:46 — Sundar Pichai:
Original (EN): How many times have we mentioned AI today? And since a big theme today has been letting Google do the work for you, we went ahead and counted so that you don’t have to. 我们今天提到了多少次AI?既然今天的一个大主题是让谷歌为你完成工作,我们已经帮你数好了,所以你就不必数了。
- 01:50:15 — Sundar Pichai:
Original (EN): That might be a record in how many times someone has said AI. 121. 这可能是一个人说AI次数的记录。121次。
视觉信号(纯转录看不到的)
屏幕文字时刻 (12)
- 00:00:10 ·
日历上显示的 Google IO '23- 确立了开场混剪视频中所强调的一年进展时间范围。
- 01:00:50 ·
Alpha Code 2 - 破解编程竞赛- 特定AI研究成果的标题卡。
- 02:55:40 ·
Gemini时代- 整个演示的关键品牌,标志着谷歌的战略重点。
- 03:57:00 ·
Gemini 1.5 Pro - 100万 tokens- 突出了正在讨论的模型巨大的上下文窗口。
- 05:37:00 ·
AI Overviews - 在美国推出,并很快推广到更多国家- 宣布新搜索体验的正式名称和推出计划。
- 07:39:00 ·
Ask Photos with Gemini- 为Google Photos引入的新功能打上品牌烙印。
- 12:09:00 ·
Gemini 1.5 Pro - 200万 tokens- 将上下文窗口翻倍的重大宣布,赢得了观众的掌声。
- 24:51:00 ·
Project Astra- 介绍了谷歌新AI智能体原型的名称。
- 30:06:00 ·
Imagen 3- 宣布谷歌下一代图像生成模型。
- 34:05:00 ·
Veo- 宣布谷歌新的生成式视频模型。
- 01:10:14 ·
Gems- 介绍了可定制Gemini专家的品牌名称。
- 01:50:00 ·
120 - AI计数- 一个幽默、自我意识的时刻,承认了‘AI’一词的大量使用。
舞台时刻 (7)
- 00:00:00 · 一段快节奏、制作精良的混剪视频展示了过去一年AI的进展和新闻头条。
- 01:30:00 · Sundar Pichai 走上Shoreline Amphitheatre的巨大户外舞台,面向欢呼雀跃、座无虚席的观众。
- 02:51:00 · Sundar Pichai 将舞台交给Liz Reid,讨论谷歌搜索的未来。
- 12:08:00 · 观众为宣布200万token上下文窗口而热烈鼓掌。
- 20:51:00 · Sundar Pichai 首次在I/O大会上将Google DeepMind的CEO Demis Hassabis介绍上台。
- 01:49:18 · Sundar Pichai 回到舞台致闭幕词。
- 01:50:00 · 一张幻灯片显示‘AI计数’为120,Sundar随后将其更新为121,引得观众大笑。
视觉演示 (7)
- 06:26:00 · 智能手机上的Google Photos用户界面。
- 用户在搜索栏中输入自然语言查询。应用显示一张汽车尾部的照片,高亮显示车牌,并将号码作为答案输出。
- 26:20:00 · 智能手机上的Project Astra原型。
- 通过手机摄像头的第一人称视角显示,AI实时识别物体,解释屏幕上的代码,并回忆起早些时候看到的一副眼镜的位置。
- 30:13:00 · 由Imagen 3生成的图像。
- 展示了一只逼真的狼、一幅精细的风景画、一只折纸猫头鹰以及由彩虹羽毛渲染的‘LIGHT’一词,以展示该模型的质量和文本渲染能力。
- 35:52:00 · 由Veo生成的视频。
- 展示了各种高质量、电影感的视频片段,包括一辆汽车驶过未来城市、一艘帆船在海上航行、一位在内罗毕的女士以及日出时的火山口。
- 50:45:00 · 在智能手机上使用视频输入的谷歌搜索。
- 用户录制了他们出故障的唱机。搜索结果页面显示了一个AI Overview,识别出具体型号(Audio-Technica LP120)并提供了修复不平衡唱臂的步骤。
- 01:00:40 · Gmail和Google Sheets中的AI工作流。
- Gmail中的Gemini侧边栏提议整理收据。然后它创建了一个新的Drive文件夹和一个Google Sheet,并自动从多个邮件中提取供应商、日期和费用等数据填充表格。
- 01:04:49 · Google Chat中的AI队友‘Chip’。
- 界面显示‘Chip’是聊天室的一员。当被提问时,它综合了来自聊天和链接文档的信息,提供了项目时间线并指出了潜在问题。
制作信号 (6)
- 00:00:00 · 预先录制、经过高度剪辑的开场混剪视频。
- 01:30:00 · 在户外圆形剧场的现场舞台演示。
- 08:41:00 · 预先录制的包含开发者对Gemini 1.5评价的片段。
- 26:20:00 · 预先录制的、一镜到底的Project Astra原型演示。
- 31:58:00 · 预先录制的展示音乐家与Music AI Sandbox合作的片段。
- 35:37:00 · 预先录制的展示Donald Glover及其工作室Gilga与Veo合作的片段。
关键主题
生成式AI · Gemini模型 · 多模态 · 长上下文窗口 · AI智能体 · 谷歌搜索 · 安卓AI · 开发者工具 · AI安全 · 创意工具 · Google Workspace · 设备端AI · 开源模型 · AI基础设施
总结要点
- 谷歌将“Gemini时代”定位为一次根本性的变革,将其最先进的AI整合到从搜索、安卓到Workspace的整个产品生态系统中。
- AI交互的未来是智能体化和多模态的;谷歌的愿景是让AI通过理解跨不同应用和数据类型(文本、图像、视频、音频)的复杂、多步骤任务,主动‘为你完成工作’。
- 上下文窗口大小的大幅增加(目前预览版已达200万token)是一个关键的技术差异化因素,能够对大型文档、代码库和数小时的视频进行深度分析。
- 谷歌正在构建一个全栈AI平台,从定制的Trillium TPU和液冷数据中心,到一系列模型(Gemini Pro, Flash, Nano)和开源替代品(Gemma),旨在为任何开发者或企业工作负载提供最佳工具。
- 新的生成式媒体模型(Imagen 3, Veo, Music AI Sandbox)在质量和创意控制方面展示了显著的飞跃,标志着谷歌大力进军AI驱动的内容创作领域。
- 设备端AI(Gemini Nano)是安卓的战略重点,它能够在无需网络连接的情况下,实现实时诈骗检测和增强的可访问性等快速、私密且具有情境感知的功能。
- 谷歌搜索正在被彻底重塑,从一个链接列表转变为一个由AI驱动的答案引擎,它能够综合信息、处理复杂的规划,并为头脑风暴组织结果。
- 在推动能力的同时,谷歌也通过SynthID文本和视频水印等技术解决方案,以及在安全和标准方面的合作努力,强调其对负责任AI的承诺。