AI 研究员访谈：智能体、模型架构与 AGI 战略

时长: 214 分钟 · ▶ 观看视频

嘉宾: AI Researcher · AI Company Executive/Researcher

章节 (24)

50:00 · 开源与闭源及 AI 安全
- 讨论 Anthropic 的安全方法，以及为什么开源可以利用集体智慧来实现更好的安全性。
55:00 · 智能体时代与生产力革命
- 探讨智能体将如何推动生产力革命，并可能取代人类工作。
1:00:00 · 智能体框架的演进
- 分析从算法工程师到更广泛参与者共同提升模型智能和智能体框架的转变。
1:05:00 · 通往 AGI 的不同路径：DAU 与智能
- 比较不同 AI 公司的战略，对比关注日活跃用户 (DAU) 与关注基础 AGI 的不同之处。
1:10:00 · 为智能体和多智能体系统训练模型
- 讨论模型作为智能体运行所需的特定能力，以及多智能体协作的现状。
1:15:00 · 智能体的“顿悟时刻”
- 嘉宾分享了她关于高级智能体连续、不间断思考过程的“顿悟时刻”。
1:20:00 · 模型架构：MTP 与注意力机制
- 深入探讨多 token 预测 (MTP) 和滑动窗口注意力等技术优化，以提高推理速度。
1:25:00 · 平衡成本、速度与性能
- 解释模型设计中的权衡，以实现智能体工作流的高吞吐量和低成本。
1:30:00 · 未来模型发展与战略
- 预测模型架构的未来演进，以及 Pro、Omni 和 TTS 等新模型的发布。
100:00 · 定价策略与 Post-Training 的价值
- 探讨 Post-Training 如何为模型增加巨大价值，将定价逻辑从纯推理成本转变为生成价值。
101:34 · 模型架构与训练稳定性
- 探讨 Flash 和 Pro 模型之间的差异，重点关注 MoE 架构的挑战，如 loss spike 和专家负载不平衡。
104:40 · Scaling Laws 与算力分配
- 关于将模型扩展到 1T 参数级别的见解、GPU 需求，以及 pre-training、post-training 和研究之间的算力比例。
111:48 · 团队结构与初创文化
- 嘉宾描述了他们 100 人团队的扁平化管理结构，以及热情如何在没有自上而下监督的情况下推动问题解决。
117:56 · 全模态模型与 TTS 创新
- 深入探讨 Omni 模型、Agent 对多模态的必要性，以及使用 discrete tokenizer 实现高度泛化的 TTS。
121:48 · AI 进化与通往 AGI 之路
- 将 AI 进化与人类生物学进行比较，讨论 coding agent 和机器人的未来，并预测在两年内实现 AGI。
00:00 · 过往研究与工业级模型
- 嘉宾讨论了她过去的研究，重点介绍了 DeepSeek V2 以及向 MOE 和 Agent 框架转变的工业级研究。
01:57 · 对学术论文的看法
- 研究员解释了她对阅读和发表学术论文的兴趣日益下降，更倾向于相信自己的实验结果。
03:17 · 团队建设与技能获取
- 她讨论了如果将团队成员置于高标准的合适环境中，他们能多快地学习所需技能。
04:46 · 招聘理念：博士生与本科生
- 嘉宾透露，在新的 Agent 范式下，她更倾向于招聘本科生，因为他们的思维比博士生受到的束缚更少。
06:14 · 创造合适的研究环境
- 她概述了如何建立一个由热情、高基线能力和思想多样性驱动的研究环境。
08:34 · Post-Training 与 Pre-Training 团队
- 讨论转向了 post-training (RL) 和 pre-training 团队在思维方式和基础设施需求上的差异。
10:05 · RL 基础设施挑战
- 研究员详细说明了为什么 RL 基础设施必须容忍错误和模糊性，这与 pre-training 基础设施的严格要求不同。
12:41 · RL 的未来与 Scaling
- 她指出，很少有团队真正实现了 Agent 的 RL scaling，并触及了持续学习的概念。
13:57 · 个人工作习惯与动力
- 嘉宾分享了她高强度的日常工作日程和较少的睡眠需求，这源于她对该领域的兴奋感。

数据 (17)

时间	事实	数值	背景
53:59	预测发生转变的年份	2026	被提及为智能体能力可能发生重大转变或爆发的关键时间范围。
1:28:54	降低成本的要求	10x	使某些智能体工作流切实可行所需的成本降低幅度。
1:28:58	Flash 模型推理速度	100 TPS	他们的 Flash 模型实现的每秒 token 数 (TPS) 速度。
1:29:04	Pro 模型推理速度	60-100 TPS	他们的 Pro 模型实现的每秒 token 数 (TPS) 速度。
1:38:28	注意力机制比例	7:1	其架构中使用的全注意力层与滑动窗口注意力层的比例，用于优化性能。
105:03	DeepSeek V3 参数规模	600+ Billion	作为训练超大模型难度的参考点被提及。
107:23	算力分配比例	3:1:1	分配给 pre-training、post-training 和研究的理想算力资源比例。
116:15	团队总人数	100 people	参与模型工作的所有职能部门（数据、pre-training、infra、post-training、产品）的总人数。
125:57	目前迈向 AGI 的进度	20%	嘉宾对行业在通往 AGI 道路上进展的估计。
126:04	年底预期的 AGI 进度	60% - 70%	嘉宾对今年年底 AGI 进度的预测。
126:10	实现 AGI 的预估时间	2 years	嘉宾预测 AGI 将在两年内实现，从根本上颠覆传统的工作模式。
03:29	有模型训练经验的人数	100 人中的 20 人	估计在 100 人的群体中有多少人以前训练过小模型。
03:53	获取技能的时间	1-2 个月（快），3-4 个月（慢）	团队成员在高标准环境中学习所需技能花费的时间。
04:54	博士生比例	55%	她团队中博士生（包括在读博士生）的百分比。
13:47	未来时间线	2026, 2027	推测 AI 范式未来发展的时间线。
13:59	日常工作日程	11:00 AM to 1:00-4:00 AM	研究员的典型工作时间。
14:16	睡眠需求	4-6 小时	研究员保持最佳状态所需的睡眠时间。

研究观点 & 预测 (14)

[51:35] 开源模型可以实现比闭源模型更好的安全性。
- 证据: 因为开源允许社区的集体智慧来审计和改进安全框架，而闭源仅依赖于内部团队。
[56:37] 智能体时代将引发一场大规模的生产力革命。
- 证据: 随着智能体变得能够处理复杂的多步任务，它们将取代许多传统的人类工作流。
[1:01:17] 目前智能体的瓶颈在于模型与智能体框架之间缺乏协同进化。
- 证据: 模型需要经过专门训练才能与智能体框架交互，而框架也需要设计成能够利用特定的模型能力。
[1:21:27] 多 token 预测 (MTP) 对于未来实现快速推理至关重要。
- 证据: MTP 通过同时预测多个 token 显著提高了生成速度，这对于智能体所需的高吞吐量至关重要。
[101:00] Post-training 根本上改变了模型的定价逻辑。
- 证据: 因为 post-training 增加了巨大的能力和上下文理解，定价应该基于生成的价值，而不仅仅是推理算力成本。
[104:00] 在 1T 参数规模下训练模型会带来严重的、不可预测的不稳定性。
- 证据: 较大的模型会经历较小模型所没有的频繁 loss spike 和专家负载不平衡，需要高强度的基础设施调试。
[119:40] 在海量音频数据集上进行 discrete tokenization 可产生卓越的 zero-shot TTS 泛化能力。
- 证据: 通过在数千小时的数据上训练带有 discrete token 的统一架构，模型仅凭自然语言描述就能推理并生成具有复杂情感和风格的音频。
[122:15] AI 的进化将比人类进化更快、更具创造力。
- 证据: 与生物进化不同，AI 缺乏生存压力，拥有充足的算力，并且从人类知识起步，这使得它能够自由且不受约束地进化。
[126:10] AGI 将在两年内实现。
- 证据: 基于当前的扩展和进展，AGI 将在 24 个月内颠覆生产和工作模式，尽管生活方式的改变会滞后。
[02:13] 相信自己的实验结果比相信学术论文中发表的结果更好。
- 证据: 基于她的经验，许多论文的问题焦点重叠或不可靠，导致她更依赖内部的经验数据。
[03:35] 技术技能可以快速获取；环境比过往经验更重要。
- 证据: 她观察到，如果在高标准目标的驱动下，团队成员可以在 1-4 个月内学到他们需要的东西。
[05:35] 本科生通常比博士生更适合探索新的 Agent 范式。
- 证据: 本科生具有更高的想象力和灵活性，他们的思维尚未被既定的学术框架所“禁锢”。
[10:14] RL 基础设施需要与 pre-training 基础设施截然不同的设计。
- 证据: RL infra 必须允许容错、模糊性和动态资源分配（CPU、GPU、存储），而 pre-training infra 不能容忍像 loss 激增这样的错误。
[12:46] 全球极少有团队成功实现了 Agent 的 RL scaling。
- 证据: 她指出这是目前行业的瓶颈，只有顶级实验室取得了重大进展。

关键概念 (12)

[52:48] Agent Framework
- 围绕 LLM 的软件架构，允许其保持状态、使用外部工具并执行多步自主工作流。
[1:21:27] Multi-Token Prediction (MTP)
- 一种训练和推理技术，要求模型一次性预测随后的多个 token，而不仅仅是下一个单一 token，从而大幅提高推理速度。
[1:38:28] Sliding Window Attention
- Transformer 模型中的一种优化方法，仅在固定的近期 token 窗口上计算注意力，而不是整个历史记录，从而节省内存和算力。
[1:26:26] KV Cache
- 在自回归生成过程中使用的一种机制，用于存储先前计算的键 (Key) 和值 (Value) 张量，防止对过去的 token 进行冗余计算。
[100:45] Post-training
- 初始 pre-training 之后的模型开发阶段，专注于对齐、指令遵循和上下文理解，以解锁模型的实际价值。
[103:25] Loss Spike
- 模型训练期间损失函数的突然、严重发散或增加，表明存在不稳定性，如果不加以缓解，可能会毁掉整个训练过程。
[103:35] MoE (Mixture of Experts)
- 一种神经网络架构，对于任何给定的 token，只有一部分参数（专家）被激活，在训练期间可能会遇到负载不平衡的问题。
[118:55] Discrete Tokenizer
- 一种将连续信号（如音频或视频）转换为 discrete token 的方法，使其能够被统一的自回归 Transformer 架构处理。
[00:43] MOE (Mixture of Experts)
- 一种机器学习技术，神经网络的不同部分专门用于不同的任务，团队很早就采用了这种技术，而不是 dense 模型。
[01:14] Agent Framework
- 一种 AI 系统设计，模型在其中进行决策、规划和执行动作，团队对其进行了优化以获得更好的性能。
[08:34] Post-training vs. Pre-training
- Pre-training 涉及在海量数据上训练基础模型，而 post-training（如 RL）涉及微调模型的行为，这需要不同的团队思维方式和基础设施。
[10:14] RL Infra (Reinforcement Learning Infrastructure)
- 训练 RL 模型所需的底层硬件和软件系统，它必须处理复杂的异构资源调度，并容忍训练中途的故障。

公司提及 (7)

Anthropic · OpenAI · Doubao (ByteDance) · Kimi (Moonshot AI) · DeepSeek · Moonshot AI · ByteDance

引用 (11)

开源与安全并不冲突；事实上，它能让更多人的智慧来改进安全。 — Guest @ 51:35

智能体时代就是生产力革命的时代。 — Guest @ 56:37

我们追求的不是 DAU；我们追求的是 AGI。 — Guest @ 1:06:25

最后如果发现所有的卡都排查了没有问题，你会怀疑是不是今天太阳黑子爆发了。 — MiniMax Researcher @ 104:30

不需要去管理这几个人，就大家一起来解决这个问题就好了。 — MiniMax Researcher @ 113:16

大模型它好像一开始上来不是为了生存… 所以大模型它可能更我觉得它会进化的更自由，然后更散漫，更有创造力。 — MiniMax Researcher @ 122:15

两年内能实现（AGI），过后就是大部分人确实会失去自己原来的工作模式。 — MiniMax Researcher @ 126:10

你相信自己的实验结果比相信论文的实验结果会更好。 — AI Researcher @ 02:16

我更在乎说我自己创造的这个环境是不是符合这样一个先决条件的，而不是在乎这个人来的时候他的历史背景的基因是不是好。 — AI Researcher @ 04:05

他的思想还没有被禁锢的感觉，所以他敢放心大胆的把自己那些想法交给这套架构去验证。 — AI Researcher @ 05:59

做 pre-train infra 你可能不能容错… 但做 RL infra 你就要允许它容错。 — AI Researcher @ 10:24

经历 & 个人故事 (3)

[1:07:08] 嘉宾描述了她对智能体的“顿悟时刻”，意识到智能体能够不间断地持续思考和执行任务，代表了 AI 能力的根本性转变。
[112:50] 嘉宾描述了他们 AI 初创团队的独特文化，强调他们在没有严格的自上而下管理的情况下运作。相反，团队由极度的热情和自组织驱动，研究人员会自然地聚集在一起共同解决关键的 bug。
[13:57] 研究员描述了她高强度的个人工作习惯，从上午 11 点工作到凌晨（1-4 点）。她解释说她只需要 4 到 6 个小时的睡眠，并且被她所做工作的深深兴奋感所驱动，觉得睡太多是浪费时间。

工具与模型 (11)

V2 Flash: 一款高速、高性价比的模型，专为高吞吐量和低延迟任务而设计。
Pro: 一款能力更强、参数量更大的模型，专为复杂的推理和高难度任务而设计。
Omni: 一款多模态模型，能够跨越音频和视觉等不同模态进行处理和生成。
TTS: 一款文本转语音模型，用于生成高质量的音频输出。
Pro: MiniMax 的大规模、高能力语言模型，专为复杂推理而设计，在训练期间面临重大的稳定性挑战。
Flash: MiniMax 较小、高效的模型，更容易训练，并作为快速、易于访问的基准。
Omni: MiniMax 的多模态模型，旨在整合文本、音频和视觉输入以实现 Agent 行为。
DeepSeek V3: 一个 600B+ 参数的模型，作为国内 AI 行业超大规模的例子被提及。
Kimi: 一个竞争对手的模型，因其上下文处理和裁剪策略被提及。
Doubao: 一个竞争对手的模型，因在国内 AI 领域表现良好而被提及。
DeepSeek V2: 一个工业级 AI 模型，作为成功实现 MOE 架构的示例被提及。

主题

AI 安全与开源 · 自主智能体与框架 · 生产力革命 · 模型推理优化 · 多 token 预测 (MTP) · AGI 发展战略 · 大语言模型训练与 Post-Training · MoE 架构与训练不稳定性 · 算力分配与 Scaling Laws · 多模态 AI 与用于 TTS 的 Discrete Tokenization · AI 团队文化与扁平化管理 · AGI 时间表与社会影响 · 强化学习 (RL) · Agent 框架 · 混合专家模型 (MOE) · AI 基础设施 (Infra) · 团队建设与招聘 · 研究理念

要点

开源 AI 可以通过允许社区审计和集体解决问题来提高安全性。
当模型架构和智能体框架协同进化时，智能体的真正潜力将被释放。
推理速度和成本降低（例如，通过 MTP 和滑动窗口注意力）是扩展智能体工作流的主要瓶颈。
AI 行业正在分化为两大阵营：追求即时消费者指标 (DAU) 的阵营，以及专注于基础智能 (AGI) 的阵营。
在 1T 参数规模下训练模型会带来严重的稳定性问题，如 loss spike，需要高强度的基础设施调试和监控。
算力分配正在发生变化，建议将 3:1:1 的比例专门用于 pre-training、post-training 和研究探索。
用于 TTS 的统一 discrete tokenization 架构在不依赖传统 pipeline 的情况下，展现出 zero-shot 情感和风格泛化的巨大潜力。
通往 AGI 的道路估计已完成 20%，预计今年将达到 60-70%，并在两年内实现完全的 AGI。
AI 的进化与人类进化有着根本的不同，因为 AI 缺乏生存压力，这使得它能够更自由、更快速、更具创造力地进化。
工业级 AI 研究比学术论文更依赖于内部的经验测试。
在建立研究团队时，热情、高基线技能和强大的环境比过去的特定经验更重要。
本科生在探索新的 AI 范式时非常有价值，因为他们的思维较少受到传统学术边界的束缚。
强化学习 (RL) 所需的基础设施与 pre-training 截然不同，需要高容错性和复杂的资源管理。
实现 Agent 的 RL scaling 仍然是 AI 行业的一个重大瓶颈，只有极少数团队能够做到。