Nano Banana / Veo / Lyria:生成式媒体栈

Year: 2026 · ▶ 在 YouTube 观看

Stephanie Wong (开发者项目全球主管) · Khulan Davaajav (生成式媒体产品营销经理)

Switch language → en

话题段落 (9)

00:00:00 · 引言 — Stephanie Wong
- Stephanie Wong 介绍 Khulan Davaajav 来讨论谷歌生成式媒体模型的最新进展。
00:00:21 · 生成式媒体领域概览 — Khulan Davaajav
- Khulan 将“生成式媒体”定义为谷歌模型的总称，涵盖图像、视频、音频和音乐生成。
01:53:00 · 演示：’WFH: Working From Hunger’ — Khulan Davaajav
- 展示了一部完全使用谷歌生成式媒体模型创作的动画短片，讲述了一个关于在家工作的故事。
03:17:00 · 使用 Nano Banana 2 进行图像生成 — Khulan Davaajav
- 解释了如何使用 Nano Banana 2 和针对艺术风格及摄像机效果的高度特定提示词来创建动画的关键帧。
05:53:00 · 使用 Veo 3.1 Lite 进行视频生成 — Khulan Davaajav
- 演示了如何使用 Veo 3.1 Lite 将静态关键帧制作成动画，并强调了其成本效益和速度。
08:51:00 · 使用 Lyria 3 Pro 进行音乐和音效制作 — Khulan Davaajav
- 展示了 Lyria 3 Pro 如何通过基于时间戳的提示词来生成具有精确时间的背景音乐和音效。
11:42:00 · 使用 Gemini 3.1 Flash TTS 进行富有表现力的画外音 — Khulan Davaajav
- 详细介绍了 Gemini 3.1 Flash TTS 如何通过使用标签控制情感和风格，从而实现极具表现力、类似人类的画外音。
14:29:00 · 演示：Gemini 3.1 Flash Live 和实时虚拟形象 — Khulan Davaajav
- 现场演示了一个由 Gemini 3.1 Flash Live 驱动的交互式 AI 虚拟形象，它可以使用来自谷歌搜索的实时数据回答问题。
17:30:00 · 创意人工智能的未来 — Khulan Davaajav
- Khulan 对未来的世界模型（如 Genie）和更低的生成延迟表示兴奋，这些将进一步赋能创作者。

产品发布 (6)

00:00:58 · 生成式媒体模型 (Suite)
- 用于图像生成的 Nano Banana · 用于视频生成的 Veo · 用于音频/音乐的 Gemini Audio 和 Lyria
- 在 Google Cloud 上可用
03:26:00 · Nano Banana 2 (Launched)
- 高保真图像生成 · 对艺术风格的详细提示词控制 · 对胶片类型和灯光等摄像机效果的控制
- 可用
06:07:00 · Veo 3.1 Lite (Launched)
- 高性价比的视频生成 · 生成速度快（每帧低于60秒） · 图像到视频以及首/尾帧动画
- 可用
09:07:00 · Lyria 3 Pro (Launched)
- 基于时间戳的提示词实现精确的音乐时间控制 · 生成器乐和音效 · 理解音乐创作并可包含人声
- 可用
11:53:00 · Gemini 3.1 Flash TTS (Launched)
- 使用超过200个控制标签（例如 [panicked], [laughs]）实现富有表现力的语音 · 控制语音风格（例如，喜剧旁白） · 控制口音和语言
- 可用
14:29:00 · Gemini 3.1 Flash Live & Live Avatar (Preview)
- 实时音频到音频对话 · 连接谷歌搜索以检索实时数据 · 驱动可进行唇形同步的交互式 AI 虚拟形象
- 预览版

演示 (2)

02:09:00 ✓ · WFH: Working From Hunger — Khulan Davaajav
- 一部关于一个人在家工作、吃零食、血糖飙升然后累倒的 3D 动画短片。整部影片，包括图像、视频、音乐、音效和画外音，都是使用谷歌的生成式媒体模型创作的。
14:57:00 ✓ · Gemini 3.1 Flash Live & Live Avatar — Khulan Davaajav
- Khulan 与一个 AI 虚拟形象进行了现场口语对话。她询问了拉斯维加斯当前的天气，虚拟形象实时从谷歌搜索中正确检索并报出了最高和最低温度。

金句 (4)

00:42:00 — Khulan Davaajav:

Original (EN): Especially at Google we say Gen Media, Generative Media, and our customers and developers are like, ‘What is Gen Media?’ 尤其是在谷歌，我们说 Gen Media，生成式媒体，而我们的客户和开发者会问：‘什么是 Gen Media？’
04:18:00 — Khulan Davaajav:

Original (EN): The one amazing thing about Nano Banana is that you can really control it with your artistic kind of decision you want to make. Nano Banana 的一个神奇之处在于，你可以用你想要做出的艺术性决策来真正地控制它。
17:00:00 — Khulan Davaajav:

Original (EN): The highlight of Gemini 3.1 Flash Live, it’s audio-to-audio. Gemini 3.1 Flash Live 的亮点在于，它是音频到音频的。
18:10:00 — Khulan Davaajav:

Original (EN): In the world model, you are the camera operator just moving around, which is amazing. 在世界模型中，你就是摄影师，可以四处移动，这太神奇了。

视觉信号

On-screen (9)

00:05:00 · 屏幕下方字幕：'Stephanie Wong, Global Lead, Developer Programs, Google Cloud'
- 标明主持人及其职位。
00:39:00 · 屏幕下方字幕：'Khulan Davaajav, Product Marketing Manager, Genmedia, Google Cloud'
- 标明嘉宾讲者及其职位。
00:56:00 · 标题卡：'Generative Media'，下方列有 'Nano Banana, Veo, Gemini Audio, Lyria'。
- 直观地介绍了正在讨论的模型套件。
03:26:00 · 标题卡：'Nano Banana 2'，附有动画中的 9 个关键帧图像网格。
- 展示了在制作成动画之前生成的静态图像。
03:49:00 · Nano Banana 2 的提示词：'3D render, Memphis Design style, smooth soft-touch silicone textures...'
- 揭示了为达到预期视觉风格所使用的细节水平和特定术语。
06:09:00 · 标题卡：'Veo 3.1 Lite'，显示'第一帧'和'最后一帧'输入以及生成的动画输出。
- 演示了 Veo 模型的图像到视频功能。
09:21:00 · 标题卡：'Lyria 3 Pro'，附有带时间戳的背景音乐提示词。
- 说明了用户如何精确控制音乐随时间的变化和音效。
12:11:00 · 标题卡：'Gemini 3.1 Flash TTS'，附有包含如 '[positive]', '[panicked]', '[laughs]' 等表现力语音标签的脚本。
- 展示了用于控制文本转语音的情感和表达方式的语法。
14:29:00 · 标题卡：'Gemini 3.1 Flash Live & Live Avatar'
- 介绍了实时交互式虚拟形象功能。

Stage (1)

00:00:00 · 该片段在 Google Cloud Next 的一个演播室环境中拍摄，两位讲者坐在一张配有麦克风和笔记本电脑的桌子旁。

Visual demos (2)

02:09:00 · 一部名为 ‘WFH: Working From Hunger’ 的 3D 动画短片。
- 一个黏土动画风格的角色在笔记本电脑上工作，吃零食，血糖飙升后在迪斯科球下跳舞，最后累倒在沙发上。
14:57:00 · 与数字虚拟形象的实时对话。
- 屏幕上一个动画男性虚拟形象，状态为’已连接’。虚拟形象的嘴唇与讲话同步移动，并显示出微妙的面部表情和头部动作。

关键主题

生成式AI · 多模态AI · 生成式媒体 · 文生图 · 文生视频 · 文生音乐 · 文本转语音 (TTS) · AI虚拟形象 · 创意AI · 提示工程 · Google Cloud · Gemini · Veo · Lyria · Nano Banana

要点

谷歌正在将其创意 AI 工具统一归入“生成式媒体”旗下，其中包括用于图像 (Nano Banana)、视频 (Veo)、音频 (Gemini Audio) 和音乐 (Lyria) 的模型。
最新的模型通过详细的提示词提供了高度的创意控制，允许用户指定艺术风格、摄像技巧、灯光甚至胶片类型。
组合模型是一个强大的工作流程：使用 Gemini 进行头脑风暴和优化提示词，使用 Nano Banana 创建关键帧，使用 Veo 将其制作成动画，使用 Lyria 制作定时音乐，并使用 Gemini TTS 进行富有表现力的配音。
Lyria 3 Pro 通过基于时间戳的提示词实现了精确的音视频同步，允许在特定时刻动态改变音乐和音效。
Gemini 3.1 Flash TTS 通过使用表现力标签（例如 [laughs], [panicked]）生成类似人类的情感语音，超越了机器人的声音。
新的 Gemini 3.1 Flash Live 和实时虚拟形象功能可实现与 AI 的实时音频到音频对话，该 AI 可以从谷歌搜索中提取实时数据，为教育、客户服务和互动娱乐等领域开辟了新的用例。
谷歌创意 AI 的未来专注于创建沉浸式“世界模型”并减少延迟，以使创作者保持在他们的“心流状态”。