用 LangChain + Gemini 自动化 SDLC
Year: 2026 · ▶ 在 YouTube 观看
Stephanie Wong (Global Lead, Developer Programs) · Harrison Chase (Co-Founder and CEO)
话题段落 (6)
- 00:00:00 · 介绍 — Stephanie Wong
- 介绍 LangChain 的联合创始人兼首席执行官 Harrison Chase,讨论如何使用大型语言模型构建应用程序。
- 00:00:20 · 智能体 Harness 层 — Harrison Chase
- 智能体 Harness 是围绕大型语言模型的脚手架,将其连接到工具和环境,对此层进行工程设计通常比微调模型权重更有效。
- 00:03:47 · 开源与托管基础设施的结合 — Harrison Chase
- 将 LangChain 等开源框架与 Google 的 Reasoning Engine 等托管运行时相结合,解决了将智能体从原型推向生产时在扩展、状态管理和可靠性方面的主要挑战。
- 00:05:48 · 通过追踪和评估改进 Harness 代码 — Harrison Chase
- 使用追踪和评估(包括明确的和从用户反馈中推断的)对于确定何时优化智能体代码至关重要,而 LangSmith 等工具促进了这一过程。
- 00:09:18 · 基础模型能力如何影响 Harness 工程 — Harrison Chase
- 基础模型的进步(例如,长上下文、多模态)简化或改变了 Harness 工程的性质,但对可观测性和评估的核心需求保持不变。
- 00:11:29 · 未来:元 Harness 与“AI AI 工程师” — Harrison Chase
- 未来涉及“元 Harness”或“AI AI 工程师”——一个自动化循环,其中智能体分析自身的性能追踪,并使用 Gemini Code Assist 等工具重写和改进自己的代码。
产品发布 (4)
- 00:03:54 ·
Google Cloud 上的 Reasoning Engine(Discussed)- 用于部署 LangChain 和 LangGraph 应用程序的安全、托管环境 · 处理智能体工作流的扩展、状态管理和可靠性 · Gemini Enterprise 智能体平台的一部分
- 在 Google Cloud 上可用
- 01:06:40 ·
LangSmith(Discussed)- 为大型语言模型应用提供可观测性和追踪 · 用于测试智能体性能的评估(Evals)框架 · 支持在线评估和自定义评估器
- 由 LangChain 提供
- 01:06:09 ·
Gemini Code Assist(Discussed)- AI 驱动的代码辅助 · 可作为自动化改进循环的一部分,用于重写智能体代码 · 集成到整个软件开发生命周期中
- 在 Google Cloud 上可用
- 01:08:48 ·
LangGraph(Discussed)- 用于通过大型语言模型构建有状态、多角色的应用程序的库 · 允许创建更具确定性的工作流和循环 · 用于构建复杂的 Harness
- 开源
竞品/对比 (3)
- 00:02:37 · vs ChatGPT — 被提及作为一个通用基准,专业的智能体凭借其特定的上下文和工具与之区分开来。
- 00:11:46 · vs OpenAI — 在研究如何为不同的基础模型(OpenAI vs. Anthropic vs. Google)调整智能体 Harness 的背景下被提及。
- 00:11:47 · vs Anthropic — 在研究如何为不同的基础模型(OpenAI vs. Anthropic vs. Google)调整智能体 Harness 的背景下被提及。
Benchmark 数字 (1)
- 00:01:51 ·
Terminal-Bench: 第 5 名- 仅通过调整 DevAgents harness,在不改变底层模型的情况下,排名从第 30 位提升至第 5 位。
金句 (4)
- 00:01:39 — Harrison Chase:
Original (EN): Changing that harness can be just as effective, and often times way easier, than changing the weights of the underlying model. 改变那个 Harness 可能同样有效,而且通常比改变底层模型的权重容易得多。
- 00:11:29 — Harrison Chase:
Original (EN): Everything in the SDLC is getting automated, and so is that like, turning of the flywheel. 软件开发生命周期中的一切都在自动化,就像转动飞轮一样。
- 00:12:21 — Harrison Chase:
Original (EN): We’re really creating this like, AI AI engineer. 我们实际上正在创造这样一个,AI AI 工程师。
- 00:13:50 — Harrison Chase:
Original (EN): You can’t really improve what you don’t know what happened, and that’s where observability comes in. 你无法真正改进你不知道发生了什么的事情,这就是可观测性的用武之地。
视觉信号
On-screen (3)
- 00:00:05 ·
屏幕下方字幕:'Stephanie Wong, Global Lead, Developer Programs, Google Cloud'- 标识主持人及其职位。
- 00:00:48 ·
屏幕下方字幕:'Harrison Chase, Co-Founder and CEO, LangChain'- 标识嘉宾及其职位。
- 00:20:37 ·
Google Cloud Next '26 标志- 本场会议视频的结束卡片。
Stage (1)
- 00:00:00 · 采访在 Google Cloud Next ‘26 活动的一个演播室环境中进行,两位演讲者坐在桌前,配有麦克风。
关键主题
AI 智能体 · LangChain · 智能体 Harness · Harness 工程 · LLMs · 基础模型 · 可观测性 · Evals (评估) · LangSmith · LangGraph · Google Cloud · Reasoning Engine · Gemini · AI 的软件开发生命周期 · 元 Harness
要点
- “智能体 Harness”——围绕大型语言模型的提示、工具和记忆的脚手架——是构建高效 AI 智能体的关键层,对其进行工程设计比改变模型权重能带来更多的性能提升。
- 将 AI 智能体从原型推向生产需要解决可靠性、状态管理和可扩展性问题,这正是像 Google 的 Reasoning Engine 这样的托管基础设施为 LangChain 等开源框架增加巨大价值的地方。
- 智能体的开发生命周期是一个迭代循环:构建智能体,通过追踪(例如,在 LangSmith 中)观察其行为,评估其性能,然后利用这些洞察来改进智能体的代码或 Harness。
- 用户反馈,无论是明确的(点赞/点踩)还是隐含的(纠正性语言),都是评估智能体性能的关键信号,并且可以通过“在线评估”实现自动化。
- 基础模型的发展(例如,更长的上下文窗口、多模态)直接影响 Harness 的设计,通常会简化它,但同时也强化了对强大可观测性和评估的需求。
- 智能体开发的未来指向一个“元 Harness”或“AI AI 工程师”——一个自我完善的系统,其中智能体分析自身的性能并自动建议或应用代码更改到其自身逻辑中。
- 尽管模型的能力越来越强,但可观测性和评估的核心挑战是持续存在的,并且对于构建可靠的、生产级的智能体系统至关重要。