《杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进》

时长: 100 分钟 · ▶ 观看视频

嘉宾: Yang Zhilin (杨植麟) · Moonshot AI 创始人兼 CEO

Switch → English

章节 (10)

  • 00:00 · 创业首年复盘
    • Yang Zhilin 回顾了 AI 模型的快速进展,并将这段旅程比作攀登一座延绵而未知的雪山。
  • 07:25 · 定义 AGI 与工作的演变
    • 探讨 AGI 作为一个方向而非固定终点,以及它最终将如何让每个人都成为“超人”。
  • 09:15 · 推理模型与 Test-Time Scaling
    • 探讨长思考推理模型、提出并验证猜想的过程,以及 Test-Time Scaling 的重要性。
  • 15:00 · 脚手架 (Scaffolding) 与上下文工程
    • 脚手架和上下文工程在最大化模型能力及解决复杂任务中的作用。
  • 23:55 · 关键决策:从 SFT 到 RL
    • Yang 概述了研究重心从 2023-2024 年的监督微调 (SFT) 向 2024-2025 年的强化学习 (RL) 的转变。
  • 27:15 · 优化器与 Token 效率
    • 引入 Muon 优化器以提升 Token 效率(与传统的 Adam 优化器相比)。
  • 40:15 · Agent 泛化与工具使用
    • Agent 泛化面临的挑战、从特定工具环境向通用工具使用的过渡,以及当前基准测试的局限性。
  • 53:15 · 开源与闭源及商业化
    • 对开源生态系统、市场整合以及 AI 产品商业化潜力的看法。
  • 70:45 · K2 模型与未来挑战
    • 讨论 K2 模型、持续迭代的必要性,以及构建世界模型的最终目标。
  • 89:35 · 作为元科学的 AI 与个人哲学
    • Yang 分享了他对 AI 成为一门元科学的看法、技术的必然进步,以及他对创造和意义的个人思考。

数据 (5)

时间 事实 数值 背景
01:45 模型进展 两年前 两年前很难想象模型现在所具备的能力。
07:45 AGI 能力 99% AGI 做事情可能会比 99% 的人类做得更好。
23:55 关键决策时间线 2023-2024 SFT 是当时研究范式的重点。
24:05 关键决策时间线 2024-2025 重点转向了强化学习 (RL)。
27:25 优化器使用 10年 Adam 优化器已经被使用了 10 年。

研究观点 & 预测 (5)

  • [13:15] Test-Time Scaling 对于有效的推理至关重要。
    • 证据: 它允许模型提出猜想、进行验证并迭代修复 bug,从而得出更好的答案。
  • [27:15] Muon 优化器显著提高了 Token 效率。
    • 证据: 它使模型能更快地吸收数据,让其一个数据点等同于其他的两个,尽管这在训练期间带来了稳定性挑战。
  • [43:45] Agent 泛化是下一个重大挑战。
    • 证据: 当前的 Agent 在分布外 (OOD) 场景中表现挣扎,需要更好的 on-policy 采样和 RL 来改进。
  • [82:35] 构建世界模型等同于创造一个世界。
    • 证据: 一个好的世界模型将拥有更高的上限和更多的知识,其作用类似于强化学习过程。
  • [91:05] AI 将成为一门元科学。
    • 证据: 这需要几十年的时间,但 AI 最终将推动其他科学领域的进步。

关键概念 (7)

  • [07:25] AGI (通用人工智能)
    • 被描述为不是一个特定的终点,而是一个持续改进的方向,在这个方向上 AI 最终将超越大多数人类的能力。
  • [13:15] Test-Time Scaling
    • 允许模型在推理过程中花费更多计算时间,以迭代地完善、验证和打磨其答案的过程。
  • [15:05] 脚手架 (Scaffolding)
    • 围绕模型构建的外部结构或工具,以帮助其执行复杂任务或利用其原生无法处理的工具。
  • [15:45] 上下文工程 (Context Engineering)
    • 设计输入上下文和方法,以有效地引导模型的逻辑和行为。
  • [27:15] Muon 优化器
    • Adam 优化器的替代方案,可提高 Token 效率和学习速度,尽管它更难稳定。
  • [82:35] 世界模型 (World Model)
    • 一个理解并模拟世界规则的模型,为智能和知识提供更高的上限。
  • [91:05] 元科学 (Meta-science)
    • AI 将成为一门基础科学的概念,它将加速并促成所有其他科学领域的发现。

提及人物 (3)

  • Yang Zhilin — Moonshot AI 创始人兼 CEO,受访者。
  • Xiaojun — 进行采访的主持人。
  • Isaac Newton — 被比喻性地提及,用于解释理论和模型如何需要不断的调整和解释。

公司提及 (4)

Moonshot AI · Anthropic · OpenAI · ByteDance

引用 (4)

一个满是雪的地方……就像强化学习的范式。 — Yang Zhilin @ 02:20

但 AGI 是你不断在做的事情。 — Yang Zhilin @ 08:25

AI 将成为一门元科学。 — Yang Zhilin @ 91:05

最终,技术的进步是不可避免的。 — Yang Zhilin @ 91:45

经历 & 个人故事 (2)

  • [00:00] Yang Zhilin 回顾了他在 Moonshot AI 创业的第一年,将这段旅程描述为攀登一座延绵而未知的雪山,在那里新问题不断出现,但最终都是可以解决的。
  • [92:25] Yang 讨论了他的个人哲学,强调了人类经验和创造性工作的重要性,以及 AI 的进步虽然不可避免,但其目标应该是帮助人们过上更好的生活。

工具与模型 (8)

  • Kimi: Moonshot AI 的主要对话式 AI 产品。
  • Claude: Anthropic 的 AI 模型,因其推理能力和编码工具而被提及。
  • K1.5: 被提及为遵循 OpenAI 发展轨迹的模型,可能是内部或即将推出的迭代版本。
  • K2: Moonshot AI 的基础模型,以表现优异而著称,并作为进一步扩展和多模态能力的基础。
  • Cursor: 在编码 Agent 的语境中提到的一款由 AI 驱动的代码编辑器。
  • Claude Code: Anthropic 推出的一款 Agent 编码工具。
  • Adam: 一种广泛用于训练深度学习模型的优化算法。
  • Muon: Moonshot 使用的一种较新的优化器,用于在模型训练期间提高 Token 效率。

主题

AGI 发展 · 强化学习 (RL) · Test-Time Scaling · Agent 泛化 · 模型优化 (Muon 与 Adam) · 开源与闭源 AI · 世界模型 · AI 商业化

要点

  • 通往 AGI 的旅程就像攀登一座延绵不绝的高山;这是一个不断解决新的复杂问题的过程。
  • Test-Time Scaling 和强化学习是目前提升模型推理能力最关键的领域。
  • 尽管带来了工程上的挑战,但通过像 Muon 这样的新优化器来提高 Token 效率是必不可少的。
  • 使 AI Agent 泛化以处理分布外任务而不严重依赖脚手架,是下一个主要障碍。
  • AI 正走在成为一门“元科学”的轨道上,它将从根本上加速人类知识的所有其他领域。