从想法到生产:Tomek Porozynski
Year: 2026 · ▶ 在 YouTube 观看
Aja Hammerly (DevX AI 总监) · Tomek Porozynski (谷歌开发者专家 (云与 AI);高级机器学习工程师)
话题段落 (8)
- 00:00:00 · 引言 — Aja Hammerly
- Aja Hammerly 介绍了 AI 开发工具的主题以及特邀演讲者 Tomek Porozynski。
- 00:16:08 · 演讲者介绍 — Tomek Porozynski
- Tomek 介绍自己是来自波兰的高级机器学习工程师和谷歌开发者专家。
- 00:28:18 · 项目展示:多语音有声书 — Tomek Porozynski
- Tomek 描述了他构建的一个激动人心的项目,该项目使用 Gemini 文本转语音功能将文本转换为多语音有声书。
- 01:47:29 · 工具与技术 — Tomek Porozynski
- 他解释了如何将 Gemini CLI 与 Vertex AI 和 Gemini API 的技能结合使用,以及他如何将项目迁移到 Google Colab 笔记本中。
- 02:33:29 · 架构深度解析 — Tomek Porozynski
- Tomek 详细介绍了应用程序的架构,该架构涉及串行和并行处理的组合来生成音频。
- 04:26:24 · 挑战与经验 — Tomek Porozynski
- 他讨论了快速发展的 AI 技术带来的挑战,以及使用“技能”如何帮助模型访问最新的信息和 API。
- 05:48:29 · AI 开发工具入门 — Tomek Porozynski
- Tomek 建议从小处着手,并为编码人员推荐 Antigravity IDE,为没有编码技能的人员推荐 Google AI Studio。
- 10:14:04 · 结论 — Aja Hammerly
- Aja 感谢 Tomek 分享了他对开源项目的见解和详细信息。
演示 (1)
- 00:38:09 ✓ · 多语音有声书生成器 — Tomek Porozynski
- Tomek 口头描述了他创建的一个工作流程,该流程使用 Gemini 文本转语音功能来分析故事、识别角色、分配不同声音并生成多语音有声书。他还提到这是一个开源项目,可通过 Google Colab 笔记本获取。
金句 (6)
- 00:38:09 — Tomek Porozynski:
Original (EN): I’m really excited about Google, or Gemini Text-to-Speech APIs. 我真的对谷歌,或者说 Gemini 的文本转语音 API 感到非常兴奋。
- 02:46:11 — Tomek Porozynski:
Original (EN): I open-sourced the solution and I used that on the DevFest talks to actually show people how that can be done. 我开源了这个解决方案,并在 DevFest 的演讲中用它来向人们展示如何实现这一点。
- 05:33:28 — Aja Hammerly:
Original (EN): I don’t know what your experience has been like, doesn’t always go exactly the way I planned. I always run into something. 我不知道你的经历是怎样的,事情并不总是完全按照我计划的方式进行。我总会遇到一些问题。
- 06:38:00 — Tomek Porozynski:
Original (EN): My advice would be not to give up when the first version is not perfect. 我的建议是,当第一个版本不完美时,不要放弃。
- 07:00:23 — Tomek Porozynski:
Original (EN): One thing that I think is sometimes overlooked is the plan phase or the brainstorming phase. 我认为有一件事有时会被忽视,那就是计划阶段或头脑风暴阶段。
- 09:07:05 — Tomek Porozynski:
Original (EN): I think the great idea is to check Google AI Studio. 我认为一个好主意是去看看 Google AI Studio。
视觉信号
On-screen (4)
- 00:00:00 ·
Google Cloud Next 26 标志- 为活动和年份打上品牌烙印。
- 00:33:21 ·
Aja Hammerly, DevX AI 总监, Google Cloud- 标明演讲者及其职位。
- 00:21:20 ·
Tomek Porozynski, 谷歌开发者专家, 云与 AI- 标明演讲者及其职位。
- 10:29:26 ·
Google Cloud Next 26 标志- 视频片段的结束卡片。
Stage (1)
- 00:00:00 · 视频开始时,两位演讲者 Aja Hammerly 和 Tomek Porozynski 在 Google Cloud Next 大会的演播室/展位环境中坐在桌前。
关键主题
AI 开发工具 · Gemini API · 文本转语音 · Google AI Studio · Gemini CLI · AI 代理 · 代理技能 · 生成式 AI 开发 · 概念验证 (POC) · Google Colab · 开源 AI · 开发者体验 (DevX) · 提示工程 · 应用架构 · 快速原型设计
要点
- Gemini 文本转语音 API 功能强大,足以通过识别角色和分配独特声音来创建多语音有声书等复杂应用。
- 对于快速原型设计,Gemini CLI 结合“技能”是测试想法和构建概念验证的有效工具。
- AI 应用的开发过程应包括一个“规划阶段”,开发者在此阶段与 AI 代理对话,进行头脑风暴、完善想法并选择技术栈,然后再编写代码。
- 谷歌为所有技能水平的用户提供了易于上手的入门点:为喜欢编码的开发者提供了 Antigravity IDE,为希望通过无代码/低代码方式构建和部署 AI 应用的用户提供了 Google AI Studio。
- AI 创新的快速步伐是一大挑战;将“技能”与 AI 代理结合使用是确保模型能够访问最新信息和 API 的关键策略。
- 开源项目并使用像 Google Colab 笔记本这样的可共享格式,是为社区做出贡献并帮助他人学习的绝佳方式。
- 在很短的时间内,就可以将 Google AI Studio 中的一个想法,发展成为一个在 Cloud Run 上使用自定义域名完全部署的应用程序。
- 在使用生成式 AI 时,迭代开发是关键;第一个结果很少是完美的,开发者应准备好进行优化和故障排除。