从想法到生产:Tomek Porozynski

Year: 2026 · ▶ 在 YouTube 观看

Aja Hammerly (DevX AI 总监) · Tomek Porozynski (谷歌开发者专家 (云与 AI)；高级机器学习工程师)

Switch language → en

话题段落 (8)

00:00:00 · 引言 — Aja Hammerly
- Aja Hammerly 介绍了 AI 开发工具的主题以及特邀演讲者 Tomek Porozynski。
00:16:08 · 演讲者介绍 — Tomek Porozynski
- Tomek 介绍自己是来自波兰的高级机器学习工程师和谷歌开发者专家。
00:28:18 · 项目展示：多语音有声书 — Tomek Porozynski
- Tomek 描述了他构建的一个激动人心的项目，该项目使用 Gemini 文本转语音功能将文本转换为多语音有声书。
01:47:29 · 工具与技术 — Tomek Porozynski
- 他解释了如何将 Gemini CLI 与 Vertex AI 和 Gemini API 的技能结合使用，以及他如何将项目迁移到 Google Colab 笔记本中。
02:33:29 · 架构深度解析 — Tomek Porozynski
- Tomek 详细介绍了应用程序的架构，该架构涉及串行和并行处理的组合来生成音频。
04:26:24 · 挑战与经验 — Tomek Porozynski
- 他讨论了快速发展的 AI 技术带来的挑战，以及使用“技能”如何帮助模型访问最新的信息和 API。
05:48:29 · AI 开发工具入门 — Tomek Porozynski
- Tomek 建议从小处着手，并为编码人员推荐 Antigravity IDE，为没有编码技能的人员推荐 Google AI Studio。
10:14:04 · 结论 — Aja Hammerly
- Aja 感谢 Tomek 分享了他对开源项目的见解和详细信息。

演示 (1)

00:38:09 ✓ · 多语音有声书生成器 — Tomek Porozynski
- Tomek 口头描述了他创建的一个工作流程，该流程使用 Gemini 文本转语音功能来分析故事、识别角色、分配不同声音并生成多语音有声书。他还提到这是一个开源项目，可通过 Google Colab 笔记本获取。

金句 (6)

00:38:09 — Tomek Porozynski:

Original (EN): I’m really excited about Google, or Gemini Text-to-Speech APIs. 我真的对谷歌，或者说 Gemini 的文本转语音 API 感到非常兴奋。
02:46:11 — Tomek Porozynski:

Original (EN): I open-sourced the solution and I used that on the DevFest talks to actually show people how that can be done. 我开源了这个解决方案，并在 DevFest 的演讲中用它来向人们展示如何实现这一点。
05:33:28 — Aja Hammerly:

Original (EN): I don’t know what your experience has been like, doesn’t always go exactly the way I planned. I always run into something. 我不知道你的经历是怎样的，事情并不总是完全按照我计划的方式进行。我总会遇到一些问题。
06:38:00 — Tomek Porozynski:

Original (EN): My advice would be not to give up when the first version is not perfect. 我的建议是，当第一个版本不完美时，不要放弃。
07:00:23 — Tomek Porozynski:

Original (EN): One thing that I think is sometimes overlooked is the plan phase or the brainstorming phase. 我认为有一件事有时会被忽视，那就是计划阶段或头脑风暴阶段。
09:07:05 — Tomek Porozynski:

Original (EN): I think the great idea is to check Google AI Studio. 我认为一个好主意是去看看 Google AI Studio。

视觉信号

On-screen (4)

00:00:00 · Google Cloud Next 26 标志
- 为活动和年份打上品牌烙印。
00:33:21 · Aja Hammerly, DevX AI 总监, Google Cloud
- 标明演讲者及其职位。
00:21:20 · Tomek Porozynski, 谷歌开发者专家, 云与 AI
- 标明演讲者及其职位。
10:29:26 · Google Cloud Next 26 标志
- 视频片段的结束卡片。

Stage (1)

00:00:00 · 视频开始时，两位演讲者 Aja Hammerly 和 Tomek Porozynski 在 Google Cloud Next 大会的演播室/展位环境中坐在桌前。

关键主题

AI 开发工具 · Gemini API · 文本转语音 · Google AI Studio · Gemini CLI · AI 代理 · 代理技能 · 生成式 AI 开发 · 概念验证 (POC) · Google Colab · 开源 AI · 开发者体验 (DevX) · 提示工程 · 应用架构 · 快速原型设计

要点

Gemini 文本转语音 API 功能强大，足以通过识别角色和分配独特声音来创建多语音有声书等复杂应用。
对于快速原型设计，Gemini CLI 结合“技能”是测试想法和构建概念验证的有效工具。
AI 应用的开发过程应包括一个“规划阶段”，开发者在此阶段与 AI 代理对话，进行头脑风暴、完善想法并选择技术栈，然后再编写代码。
谷歌为所有技能水平的用户提供了易于上手的入门点：为喜欢编码的开发者提供了 Antigravity IDE，为希望通过无代码/低代码方式构建和部署 AI 应用的用户提供了 Google AI Studio。
AI 创新的快速步伐是一大挑战；将“技能”与 AI 代理结合使用是确保模型能够访问最新信息和 API 的关键策略。
开源项目并使用像 Google Colab 笔记本这样的可共享格式，是为社区做出贡献并帮助他人学习的绝佳方式。
在很短的时间内，就可以将 Google AI Studio 中的一个想法，发展成为一个在 Cloud Run 上使用自定义域名完全部署的应用程序。
在使用生成式 AI 时，迭代开发是关键；第一个结果很少是完美的，开发者应准备好进行优化和故障排除。