《杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进》
时长: 100 分钟 · ▶ 观看视频
嘉宾: Yang Zhilin (杨植麟) · Moonshot AI 创始人兼 CEO
章节 (10)
- 00:00 · 创业首年复盘
- Yang Zhilin 回顾了 AI 模型的快速进展,并将这段旅程比作攀登一座延绵而未知的雪山。
- 07:25 · 定义 AGI 与工作的演变
- 探讨 AGI 作为一个方向而非固定终点,以及它最终将如何让每个人都成为“超人”。
- 09:15 · 推理模型与 Test-Time Scaling
- 探讨长思考推理模型、提出并验证猜想的过程,以及 Test-Time Scaling 的重要性。
- 15:00 · 脚手架 (Scaffolding) 与上下文工程
- 脚手架和上下文工程在最大化模型能力及解决复杂任务中的作用。
- 23:55 · 关键决策:从 SFT 到 RL
- Yang 概述了研究重心从 2023-2024 年的监督微调 (SFT) 向 2024-2025 年的强化学习 (RL) 的转变。
- 27:15 · 优化器与 Token 效率
- 引入 Muon 优化器以提升 Token 效率(与传统的 Adam 优化器相比)。
- 40:15 · Agent 泛化与工具使用
- Agent 泛化面临的挑战、从特定工具环境向通用工具使用的过渡,以及当前基准测试的局限性。
- 53:15 · 开源与闭源及商业化
- 对开源生态系统、市场整合以及 AI 产品商业化潜力的看法。
- 70:45 · K2 模型与未来挑战
- 讨论 K2 模型、持续迭代的必要性,以及构建世界模型的最终目标。
- 89:35 · 作为元科学的 AI 与个人哲学
- Yang 分享了他对 AI 成为一门元科学的看法、技术的必然进步,以及他对创造和意义的个人思考。
数据 (5)
| 时间 | 事实 | 数值 | 背景 |
|---|---|---|---|
| 01:45 | 模型进展 | 两年前 | 两年前很难想象模型现在所具备的能力。 |
| 07:45 | AGI 能力 | 99% | AGI 做事情可能会比 99% 的人类做得更好。 |
| 23:55 | 关键决策时间线 | 2023-2024 | SFT 是当时研究范式的重点。 |
| 24:05 | 关键决策时间线 | 2024-2025 | 重点转向了强化学习 (RL)。 |
| 27:25 | 优化器使用 | 10年 | Adam 优化器已经被使用了 10 年。 |
研究观点 & 预测 (5)
- [13:15] Test-Time Scaling 对于有效的推理至关重要。
- 证据: 它允许模型提出猜想、进行验证并迭代修复 bug,从而得出更好的答案。
- [27:15] Muon 优化器显著提高了 Token 效率。
- 证据: 它使模型能更快地吸收数据,让其一个数据点等同于其他的两个,尽管这在训练期间带来了稳定性挑战。
- [43:45] Agent 泛化是下一个重大挑战。
- 证据: 当前的 Agent 在分布外 (OOD) 场景中表现挣扎,需要更好的 on-policy 采样和 RL 来改进。
- [82:35] 构建世界模型等同于创造一个世界。
- 证据: 一个好的世界模型将拥有更高的上限和更多的知识,其作用类似于强化学习过程。
- [91:05] AI 将成为一门元科学。
- 证据: 这需要几十年的时间,但 AI 最终将推动其他科学领域的进步。
关键概念 (7)
- [07:25] AGI (通用人工智能)
- 被描述为不是一个特定的终点,而是一个持续改进的方向,在这个方向上 AI 最终将超越大多数人类的能力。
- [13:15] Test-Time Scaling
- 允许模型在推理过程中花费更多计算时间,以迭代地完善、验证和打磨其答案的过程。
- [15:05] 脚手架 (Scaffolding)
- 围绕模型构建的外部结构或工具,以帮助其执行复杂任务或利用其原生无法处理的工具。
- [15:45] 上下文工程 (Context Engineering)
- 设计输入上下文和方法,以有效地引导模型的逻辑和行为。
- [27:15] Muon 优化器
- Adam 优化器的替代方案,可提高 Token 效率和学习速度,尽管它更难稳定。
- [82:35] 世界模型 (World Model)
- 一个理解并模拟世界规则的模型,为智能和知识提供更高的上限。
- [91:05] 元科学 (Meta-science)
- AI 将成为一门基础科学的概念,它将加速并促成所有其他科学领域的发现。
提及人物 (3)
- Yang Zhilin — Moonshot AI 创始人兼 CEO,受访者。
- Xiaojun — 进行采访的主持人。
- Isaac Newton — 被比喻性地提及,用于解释理论和模型如何需要不断的调整和解释。
公司提及 (4)
Moonshot AI · Anthropic · OpenAI · ByteDance
引用 (4)
一个满是雪的地方……就像强化学习的范式。 — Yang Zhilin @ 02:20
但 AGI 是你不断在做的事情。 — Yang Zhilin @ 08:25
AI 将成为一门元科学。 — Yang Zhilin @ 91:05
最终,技术的进步是不可避免的。 — Yang Zhilin @ 91:45
经历 & 个人故事 (2)
- [00:00] Yang Zhilin 回顾了他在 Moonshot AI 创业的第一年,将这段旅程描述为攀登一座延绵而未知的雪山,在那里新问题不断出现,但最终都是可以解决的。
- [92:25] Yang 讨论了他的个人哲学,强调了人类经验和创造性工作的重要性,以及 AI 的进步虽然不可避免,但其目标应该是帮助人们过上更好的生活。
工具与模型 (8)
- Kimi: Moonshot AI 的主要对话式 AI 产品。
- Claude: Anthropic 的 AI 模型,因其推理能力和编码工具而被提及。
- K1.5: 被提及为遵循 OpenAI 发展轨迹的模型,可能是内部或即将推出的迭代版本。
- K2: Moonshot AI 的基础模型,以表现优异而著称,并作为进一步扩展和多模态能力的基础。
- Cursor: 在编码 Agent 的语境中提到的一款由 AI 驱动的代码编辑器。
- Claude Code: Anthropic 推出的一款 Agent 编码工具。
- Adam: 一种广泛用于训练深度学习模型的优化算法。
- Muon: Moonshot 使用的一种较新的优化器,用于在模型训练期间提高 Token 效率。
主题
AGI 发展 · 强化学习 (RL) · Test-Time Scaling · Agent 泛化 · 模型优化 (Muon 与 Adam) · 开源与闭源 AI · 世界模型 · AI 商业化
要点
- 通往 AGI 的旅程就像攀登一座延绵不绝的高山;这是一个不断解决新的复杂问题的过程。
- Test-Time Scaling 和强化学习是目前提升模型推理能力最关键的领域。
- 尽管带来了工程上的挑战,但通过像 Muon 这样的新优化器来提高 Token 效率是必不可少的。
- 使 AI Agent 泛化以处理分布外任务而不严重依赖脚手架,是下一个主要障碍。
- AI 正走在成为一门“元科学”的轨道上,它将从根本上加速人类知识的所有其他领域。