《杨植麟复盘大模型创业这一年：向延绵而未知的雪山前进》

时长: 100 分钟 · ▶ 观看视频

嘉宾: Yang Zhilin (杨植麟) · Moonshot AI 创始人兼 CEO

章节 (10)

00:00 · 创业首年复盘
- Yang Zhilin 回顾了 AI 模型的快速进展，并将这段旅程比作攀登一座延绵而未知的雪山。
07:25 · 定义 AGI 与工作的演变
- 探讨 AGI 作为一个方向而非固定终点，以及它最终将如何让每个人都成为“超人”。
09:15 · 推理模型与 Test-Time Scaling
- 探讨长思考推理模型、提出并验证猜想的过程，以及 Test-Time Scaling 的重要性。
15:00 · 脚手架 (Scaffolding) 与上下文工程
- 脚手架和上下文工程在最大化模型能力及解决复杂任务中的作用。
23:55 · 关键决策：从 SFT 到 RL
- Yang 概述了研究重心从 2023-2024 年的监督微调 (SFT) 向 2024-2025 年的强化学习 (RL) 的转变。
27:15 · 优化器与 Token 效率
- 引入 Muon 优化器以提升 Token 效率（与传统的 Adam 优化器相比）。
40:15 · Agent 泛化与工具使用
- Agent 泛化面临的挑战、从特定工具环境向通用工具使用的过渡，以及当前基准测试的局限性。
53:15 · 开源与闭源及商业化
- 对开源生态系统、市场整合以及 AI 产品商业化潜力的看法。
70:45 · K2 模型与未来挑战
- 讨论 K2 模型、持续迭代的必要性，以及构建世界模型的最终目标。
89:35 · 作为元科学的 AI 与个人哲学
- Yang 分享了他对 AI 成为一门元科学的看法、技术的必然进步，以及他对创造和意义的个人思考。

[13:15] Test-Time Scaling 对于有效的推理至关重要。
- 证据: 它允许模型提出猜想、进行验证并迭代修复 bug，从而得出更好的答案。
[27:15] Muon 优化器显著提高了 Token 效率。
- 证据: 它使模型能更快地吸收数据，让其一个数据点等同于其他的两个，尽管这在训练期间带来了稳定性挑战。
[43:45] Agent 泛化是下一个重大挑战。
- 证据: 当前的 Agent 在分布外 (OOD) 场景中表现挣扎，需要更好的 on-policy 采样和 RL 来改进。
[82:35] 构建世界模型等同于创造一个世界。
- 证据: 一个好的世界模型将拥有更高的上限和更多的知识，其作用类似于强化学习过程。
[91:05] AI 将成为一门元科学。
- 证据: 这需要几十年的时间，但 AI 最终将推动其他科学领域的进步。

Moonshot AI · Anthropic · OpenAI · ByteDance

一个满是雪的地方……就像强化学习的范式。 — Yang Zhilin @ 02:20

但 AGI 是你不断在做的事情。 — Yang Zhilin @ 08:25

AI 将成为一门元科学。 — Yang Zhilin @ 91:05

最终，技术的进步是不可避免的。 — Yang Zhilin @ 91:45

[00:00] Yang Zhilin 回顾了他在 Moonshot AI 创业的第一年，将这段旅程描述为攀登一座延绵而未知的雪山，在那里新问题不断出现，但最终都是可以解决的。
[92:25] Yang 讨论了他的个人哲学，强调了人类经验和创造性工作的重要性，以及 AI 的进步虽然不可避免，但其目标应该是帮助人们过上更好的生活。

AGI 发展 · 强化学习 (RL) · Test-Time Scaling · Agent 泛化 · 模型优化 (Muon 与 Adam) · 开源与闭源 AI · 世界模型 · AI 商业化