自动化创意:生成式媒体 Agent

Year: 2026 · ▶ 在 YouTube 观看

Stephanie Wong (开发者项目全球主管) · Katie Nguyen (开发者关系工程师)

Switch language → en

话题段落 (10)

00:00:00 · 引言 — Stephanie Wong
- Stephanie Wong 介绍 Katie Nguyen 来讨论如何自动化生成式媒体工作流。
00:00:24 · 生成式媒体的程序化方面 — Katie Nguyen
- Katie 解释了智能体如何自动化创意工作流、处理一致性并协助构思。
00:01:25 · 现场演示：角色故事智能体 — Katie Nguyen
- Katie 开始使用 Agent Development Kit (ADK) 进行现场演示，生成一个关于一只名叫 Lulu 的淘气小狗的故事。
00:05:05 · 代码讲解：智能体与工具实现 — Katie Nguyen
- 在智能体生成媒体的同时，Katie 讲解了 Python 代码，展示了如何定义和使用 Veo、Gemini、Lyria 和 Nano Banana 的工具。
00:07:14 · 智能体优势与角色一致性 — Katie Nguyen
- 智能体通过使用初始生成的图像作为所有后续媒体的参考，来保持角色和故事的一致性。
00:08:38 · 演示结果：最终视频 — Katie Nguyen
- Katie 播放了《Lulu 的独自在家故事》的最终视频，该视频完全由智能体生成，包括场景、旁白和音乐。
00:09:53 · 与智能体进行迭代 — Katie Nguyen
- Katie 演示了如何通过自然语言要求智能体将背景音乐调大声，从而对结果进行迭代。
00:10:20 · 使用智能体技能以增强稳健性 — Katie Nguyen
- 她解释了如何使用“技能”（预定义的指令集）来赋予智能体更详细的能力，例如用于文本转语音（TTS）的“声音指导”技能。
00:11:20 · 智能体循环中的评估 — Katie Nguyen
- Katie 讨论了使用“评估智能体”充当裁判，自动检查生成媒体的质量以及是否符合提示。
00:12:28 · 结论 — Stephanie Wong
- Stephanie 总结了本次会议，强调了使用智能体处理复杂创意任务的强大能力。

产品发布 (5)

00:01:39 · Agent Development Kit (ADK) (1.31.0)
- 用于构建 AI 智能体的框架。 · 提供用于测试和交互的 Web UI。 · 与各种工具和模型集成。
- 在演示中展示。
00:03:19 · Nano Banana 2 (Preview)
- 图像生成模型。 · 保留自然语言提示中的细节。 · 用于创建初始角色图像。
- 在演示中使用。
00:05:26 · Veo (3.1-lite-generate-001)
- 文本到视频和图像到视频生成。 · 高质量、一致的视频创作。 · 可配置参数，如时长和分辨率。
- 在演示中使用。
00:06:58 · Lyria (3-clip-preview)
- 生成式音乐模型。 · 根据场景情绪创作背景音乐。 · 可在智能体框架内作为工具访问。
- 在演示中使用。
00:06:52 · Gemini Text-to-Speech (TTS) (3.1-flash-tts-preview)
- 生成画外音旁白。 · 支持表达性音频标签以实现细致的表达。 · 提供多种预置声音。
- 在演示中使用。

演示 (1)

00:01:25 ✓ · Character Story Agent — Katie Nguyen
- 现场演示了一个使用 Agent Development Kit (ADK) 构建的 AI 智能体，它接收一个简单的提示（“一个关于狗独自在家的故事”），与用户互动以获取细节，然后自主生成一个多场景故事，其中包含一致的角色图像 (Nano Banana)、动画视频剪辑 (Veo)、语音旁白 (Gemini TTS) 和背景音乐 (Lyria)。然后，该智能体将所有资产组合成一个最终的视频文件，甚至根据自然语言反馈进行编辑。

金句 (3)

00:01:08 — Katie Nguyen:

Original (EN): Gemini is going to keep track of all of this, and the agent has that memory. It’s going to be able to reference and use the previous assets that it created to really create a whole story and make sure it’s really cohesive. Gemini 会记录所有这些信息，智能体也拥有该记忆。它将能够引用并使用之前创建的资产，从而真正创作一个完整的故事，并确保其高度连贯。
00:07:20 — Stephanie Wong:

Original (EN): From the prompting perspective, you really didn’t have to provide much detail, but you’ve already set up basically the logic and the structure that you need for the agent to go kick off this automated process from image to video and include sound. 从提示的角度来看，你其实不必提供太多细节，但你已经基本设置好了智能体所需的逻辑和结构，以便启动这个从图像到视频并包含声音的自动化流程。
00:11:20 — Katie Nguyen:

Original (EN): You can create like an image evaluator agent… and have it take in the media, compare it against the original prompt… and use LLM as a judge in a way. 你可以创建一个像图像评估智能体一样的东西……让它接收媒体，将其与原始提示进行比较……并在某种程度上使用大语言模型（LLM）作为裁判。

视觉信号

On-screen (9)

00:00:07 · 屏幕下方字幕：'Stephanie Wong, 全球开发者项目主管, Google Cloud'
- 标明主持人的身份和职位。
00:00:43 · 屏幕下方字幕：'Katie Nguyen, 开发者关系工程师, Google Cloud'
- 标明演讲者的身份和职位。
00:01:33 · 终端命令：adk web –sdk-web-port=8024``
- 显示了用于启动 Agent Development Kit 本地 Web 服务器以进行测试的命令。
00:01:50 · Agent Development Kit Web UI
- 演示期间与 AI 智能体进行交互和调试的主要界面。
00:02:24 · 聊天中的用户提示：'我们来生成一个关于一只狗独自在家惹麻烦的故事'
- 给予智能体的初始高级指令。
00:04:04 · 智能体回应的三场景故事情节：1. 厨房奇遇，2. 撕碎交响曲，3. 瞌睡的嫌疑犯。
- 展示了智能体从简单提示中构建叙事结构的能力。
00:06:11 · VS Code 中的 Python 代码 (agent.py)
- 揭示了智能体的底层实现，包括工具定义和 SDK 调用。
00:10:40 · 用于'GenMedia 声音指导'的 Markdown 文件 (SKILL.md)
- 演示了智能体“技能”的概念，它为特定任务向大语言模型（LLM）提供详细、可复用的指令。
00:11:28 · 最终生成的视频在 QuickTime Player 中播放
- 智能体自动化工作流的最终成果，展示了合并后的视频、音频和旁白。

Stage (1)

00:00:00 · 两位演讲者 Stephanie Wong 和 Katie Nguyen 坐在 Google Cloud Next 的一个演播室场景中的桌子旁，面前有麦克风和笔记本电脑。

Visual demos (1)

00:01:33 · 一个实时屏幕共享演示。
- 演示者 (Katie) 从终端开始，运行命令启动 ADK Web UI。然后她切换到显示聊天界面的浏览器。她输入提示，智能体以文本和函数调用作为回应。她在本地文件系统中导航，展示生成的图像和视频文件。她还在代码编辑器中展示了智能体的 Python 源代码和一个智能体技能的 Markdown 文件。

关键主题

生成式 AI · AI 智能体 · 多模态 · 智能体工作流 · 视频生成 · 音乐生成 · 文本转语音 · Agent Development Kit (ADK) · Google Cloud · Gemini · Veo · Lyria · 创意自动化 · 开发者工具

要点

AI 智能体可以自动化复杂的、多步骤的创意工作流，例如从单个提示生成包含图像、视频和音频的完整故事。
Google 的 Agent Development Kit (ADK) 提供了一个用于构建、测试这些智能体并与之交互的框架和用户界面。
智能体工作流通过使用先前生成的资产作为参考，在保持不同媒体类型（例如角色外观）之间的一致性方面表现出色。
该智能体利用一套生成模型作为“工具”：Nano Banana 用于图像，Veo 用于视频，Lyria 用于音乐，Gemini 用于旁白（TTS）和整体推理。
用户可以使用自然语言与智能体互动，提供初步想法并进行迭代更改，充当创意协作者而非微观管理者。
“技能”的概念允许开发者为智能体提供用于复杂任务的详细、可复用的指令集，使智能体更加稳健和强大。
评估也可以集成到智能体循环中，其中大语言模型（LLM）充当“裁判”，评估生成内容的质量和对提示的遵循程度。