张小珺商业访谈录 - 姚顺宇专访

时长: 228 分钟 · ▶ 观看视频

嘉宾: Shunyu Yao 姚顺宇 · Google DeepMind 研究员（前 Anthropic 员工）

章节 (42)

00:00 · 简介
- 主持人张小珺介绍嘉宾姚顺宇，并交代了访谈的背景。
01:27 · 嘉宾背景与“两个姚顺宇”
- 姚顺宇讲述了他的物理学学术背景，以及与另一位知名 AI 研究员同名的巧合。
05:36 · AI 的“下半场”与模型同质化
- 探讨 AI 如何进入能力同质化的阶段，挑战从“能不能做”转变为“应该做什么”。
11:14 · OpenCloud 与 Minus
- 分析 OpenCloud 和 Minus 等新型 AI agent 产品，以及为什么大厂内部早已预料到它们的路径。
16:43 · 初创公司 vs. 大厂与数据飞轮
- 探讨为什么 AI 初创公司纷纷卖给大厂，以及除了写代码之外缺乏成功的数据飞轮效应。
25:23 · Cursor 与代码 Agent 的演进
- Cursor 等 AI 代码初创公司与 Anthropic 等大厂之间的竞争动态。
33:42 · Scaling Laws 与潜在瓶颈
- 姚顺宇分享了他对 Scaling Laws 是否会碰壁的看法，以及模型训练中潜在的 bug 或数据限制。
46:40 · 程序员的未来
- 预测 AI 将如何影响软件工程职业并使技术权力集中化。
50:10 · ByteDance 与 Google 的对比及 Gemini 评估
- 探讨 ByteDance 的多模态能力，并赞赏 Google Gemini 团队的技术实力。
53:31 · 中美 AI 差距与模型蒸馏
- 分析中美模型之间日益缩小的差距，以及模型蒸馏的伦理与方法。
57:50 · Doubao 的语音能力与 Apple 的战略
- 评估 Doubao 卓越的语音生成能力，以及 Apple 整合 AI 的务实策略。
1:04:08 · AI 机器人技术的瓶颈
- 探讨为何机器人硬件价格低廉，但软件却缺乏具备泛化能力的基础模型。
1:08:46 · 早年生活与清华短信
- Weitone 分享他从宁夏到上海的历程，以及一条大胆的短信如何让他进入清华大学。
1:16:30 · 本科物理与非厄米系统
- 在清华大学研究开放量子系统，并意识到大多数物理系学生最终离开了该领域。
1:26:26 · 斯坦福博士与离开高能物理
- 在斯坦福大学转向高能物理，但最终因理论无法得到实验验证而离开。
100:00 · 从物理学向 AI 的转型
- 嘉宾讨论了他的理论物理学背景，以及由于物理实验进展缓慢而决定转向 AI 研究的原因。
104:22 · 作为黑盒的 AI 与 Scaling Laws
- 探讨 AI 是否是一个黑盒，将其与物理学进行比较，并讨论经验性的缩放定律可能如何演变为科学定律。
112:33 · 加入 Anthropic
- 嘉宾如何通过物理学界的人脉加入 Anthropic，以及他对该公司 RL 团队的初步印象。
116:41 · Anthropic 的文化与 Claude 3.7
- 深入了解 Anthropic 自上而下的文化、执行速度，以及针对智能体编程开发的 Claude 3.7。
131:39 · 跳槽到 Google
- 嘉宾解释了他离开 Anthropic 加入 Google 的原因，并比较了这两家公司的组织架构和文化。
138:40 · AI 领域个人英雄主义时代的终结
- 反思 AI 研究如何变成了一项庞大的系统工程，而不再是一个由个人突破驱动的领域。
150:00 · AI 研究的集体主义本质
- 嘉宾解释说，现代 AI 研究是一项集体努力，而不是由个人英雄驱动的。
152:30 · Anthropic 的 AI 安全方法
- 讨论 Anthropic 的创立动机，以及为什么他们强制执行 AI 安全的方法可能过于天真。
154:30 · AI 自动化 AI 研究
- 嘉宾预测 AI 很快就能从头到尾自主进行机器学习实验。
157:30 · 离开 Anthropic 与产品战略
- 嘉宾回顾了他离开 Anthropic 的经历，并赞扬了他们最近的产品创新，如 Claude Code。
161:10 · 在 Google DeepMind 的工作：ML 编码与长周期任务
- 深入探讨嘉宾在 Google DeepMind 专注于 ML 编码和长周期任务的工作。
164:30 · 预训练与后训练
- 分析如何实现长上下文能力，对比预训练和后训练方法。
167:20 · Gemini 的影响与市场动态
- 嘉宾讨论了对 Gemini 的期望，以及 OpenAI 激进的产品战略如何颠覆了市场。
172:00 · 搜索与聊天机器人：Google 的困境
- 探讨 Google 在搜索收入和 AI 聊天机器人崛起方面的创新者窘境。
176:00 · 强化学习与数据质量
- 预训练和后训练数据之间的差异，以及强化学习在模型开发中的作用。
180:00 · AI 基准测试的现状
- 对当前 AI 基准测试（如 SWE-bench）的批评，以及它们如何变得饱和。
184:30 · 组织结构：Google 对比 Anthropic
- 比较主要 AI 实验室自上而下与自下而上的研究文化。
190:00 · 世界模型与未来 AI 系统
- 讨论什么是“世界模型”以及构建它们的不同方法。
195:00 · Google 的领导层
- 嘉宾分享了他对 Google 领导层的看法，包括 Sergey Brin、Demis Hassabis 和 Koray Kavukcuoglu。
200:00 · 技术领导力
- 探讨技术领导者具备亲自动手解决问题的能力和同理心的重要性。
201:18 · TPU与GPU架构对比
- 对比用于大规模集群的TPU 3D torus拓扑结构与基于pod的GPU NVLink架构。
203:33 · 新兴AI实验室的命运
- 预测大多数从大型科技公司剥离出来的新建AI实验室将会失败。
204:15 · 企业级与消费级AI市场
- 分析为什么美国在直接的企业级（B2B）软件方面表现出色，而中国在复杂的消费级（B2C）产品中占据主导地位。
208:30 · AI研究员的薪酬与英雄
- 对AI研究员虚高薪酬以及AI领域“个人英雄”时代终结的看法。
211:13 · 面试AI人才
- 嘉宾分享了他24小时强化学习面试测试，以过滤掉过度依赖AI编程工具的候选人。
216:07 · Anthropic与Google DeepMind对比
- 对比Anthropic在语言模型上专注、垂直的方法与Google横向、多方向的研究。
217:35 · AI领域的物理学家与“老灯”
- 对物理学家转型进入AI领域以及“老灯”（脱节的资深人士）现象的思考。

数据 (20)

时间	事实	数值	背景
02:08	博士后时长	2 weeks	姚顺宇在前往 Anthropic 之前在 UC Berkeley 做博士后的时间。
02:18	在 Anthropic 的任期	1 year	姚顺宇在加入 Google DeepMind 之前在 Anthropic 工作的时间。
04:51	工作变动日期	September/October last year	姚顺宇离开 Anthropic 加入 Google DeepMind 的时间范围。
07:55	Benchmark 分数	Around 80%	顶级 AI 模型在 SWE-bench 等代码 benchmark 上的当前性能水平。
34:02	Scaling law 预测时间范围	4 months	姚顺宇预测我们不会看到 Scaling Laws 明确“终结”的时间范围。
39:43	AI 代码生成	90%	预计 AI 最终能够为开发者编写的代码百分比。
53:33	Q1 2026	2026	讨论中美 AI 能力差距时提到的一个假设性时间范围。
53:46	差距缩小的时间范围	1 to 1.5 years	观察到的过去一年半里中美 AI 差距缩小的趋势。
1:01:40	物理系学生留存率	2/3	据估计，他所在的清华物理班中没有长期从事物理研究的学生比例。
114:44	加入 Anthropic RL 团队的时间范围	August/September 2024	在 OpenAI 的 O1 模型发布之前。
118:13	加入时 Anthropic 的员工人数	700-800	嘉宾刚加入时公司的规模。
126:44	Claude 3.7 的开发时间	4-5 months	从开始训练到发布所花费的时间。
141:44	离开时 Anthropic 的员工人数	Nearly 2000	嘉宾离开时公司的规模。
156:36	AI 自主进行实验的时间范围	6 to 12 months	嘉宾预测，在此时间范围内，AI 将能够自主编写代码、运行实验、分析结果并进行迭代。
173:31	嘉宾对 Gemini 的高期望	End of September last year	嘉宾提到在这个时候对 Gemini 抱有很高的期望。
177:46	SWE-bench 分数	80+	嘉宾指出，模型现在在编码基准测试中达到了 80 多分，表明已经饱和。
182:13	Gemini 市场份额估计	20%	嘉宾估计了 Gemini 目前在聊天机器人领域的市场份额。
202:24	Hopper GPU pod规模	8 cards	提到这是在需要外部网络之前，通过NVLink连接的pod中的典型显卡数量。
205:35	企业级软件经济学	成本150，售价200	用作美国企业级软件简单、直接的商业变现模式的例子。
211:49	面试测试时长	24小时	给予候选人从零开始完成一个强化学习项目的时间。

研究观点 & 预测 (15)

[05:36] AI 已经进入了一个新阶段，主要挑战在于定义正确的问题，而不是模型能否解决这些问题。
- 证据: 当前的行业状态，顶级模型（OpenAI、Anthropic、Google）能力极强且趋于同质化。
[15:28] 写代码是目前唯一成功形成数据飞轮的 AI 原生应用场景。
- 证据: 当前的市场观察；其他 AI 应用尚未实现这种自我强化的循环。
[34:00] 由于数据枯竭、算法 bug 或当前范式的根本限制，Scaling Laws 可能会面临瓶颈。
- 证据: 未来几年；研究人员已经在争论 Scaling Laws 是否正在达到其极限。
[47:15] AI 将作为一种中心化的技术，赋能一小部分人，同时削弱大多数人的独特价值。
- 证据: 长期的社会与行业影响。
[53:55] 中国主要的 AI 瓶颈是算力，而非算法创新。
- 证据: 模型能力的差距正在缩小，但算力的缺乏迫使中国公司采用模型蒸馏而非扩大规模（scaling）。
[1:05:36] 机器人技术缺乏具备泛化能力的基础模型。
- 证据: 目前的机器人技术过度依赖特定的强化学习环境，而不是通用的“视觉-语言-动作”（Vision-Language-Action）模型。
[1:29:00] 高能理论物理目前与实验验证脱节。
- 证据: 该领域发展出的理论无法用当前或近未来的对撞机进行测试，导致很难证明其有效性。
[106:01] 缩放定律目前是经验性的，但可能会成为科学定律。
- 证据: 随着技术的稳定和对微观机制的更好理解，经验定律通常会转变为科学定律，类似于热力学的发展史。
[141:01] AI 研究领域的个人英雄主义时代已经结束。
- 证据: 现代 AI 训练是一个庞大的系统工程问题，需要大型团队的协作，这使得个人的贡献不再占据主导地位。
[156:36] AI 将完全自动化机器学习研究流程。
- 证据: 在 6 到 12 个月内，AI 将能够编写代码、执行实验、分析结果并提出新假设。
[163:00] 长周期任务需要选择性记忆检索，而不仅仅是无限的上下文窗口。
- 证据: 嘉宾认为，人类会忘记无关的细节并检索必要的上下文，对于 AI 来说，这比处理无限长的上下文更有效。
[166:37] 后训练是解锁长上下文能力的关键。
- 证据: 虽然预训练需要海量数据，但后训练允许模型学习如何用较少的数据有效地管理和利用长上下文。
[202:33] 由于采用3D torus设计，TPU比GPU提供更好的大规模通信效率。
- 证据: TPU以3D torus拓扑连接，与GPU pod相比，减少了海量集群间的通信限制。
[203:46] 绝大多数新的AI实验室将会消亡。
- 证据: 许多实验室缺乏明确的目标或产品交付机制，仅仅是从大型科技公司剥离出来，而没有可靠的商业计划。
[213:47] 纯语言模型已经不再是一片蓝海。
- 证据: 该领域已经饱和，下一个巨大机遇在于机器人技术、多模态生成以及AI for science。

关键概念 (19)

[05:36] 模型同质化
- 来自不同公司的顶级 AI 模型在能力和 benchmark 分数上变得非常相似的现象。
[11:14] Agentic AI / Agents
- 旨在执行长周期任务、做出决策并自主与环境交互的 AI 系统。
[15:28] 数据飞轮
- 一种自我强化的循环，即产品的使用会产生数据，数据会改进 AI 模型，进而吸引更多的使用。
[33:42] Scaling Laws
- 一种经验观察，即随着算力、数据和模型规模的增加，AI 模型的性能会可预测地提升。
[54:59] 硬蒸馏 (Hard Distillation)
- 从更强大的模型（如 GPT-4）生成 token，并直接用这些数据训练较小的模型，嘉宾认为这种做法缺乏原创性。
[56:00] 智能蒸馏 (Smart Distillation)
- 使用更强大的模型作为评估器，或将多个模型整合到多智能体训练环境中，以生成更高质量的合成数据。
[1:22:00] 非厄米系统 (Non-Hermitian Systems)
- 量子物理学的一个分支，研究与环境相互作用并交换能量/信息的开放系统，而非孤立系统。
[1:31:16] 量子纠缠 (Quantum Entanglement)
- 一种量子粒子相互连接的现象，其中一个粒子的状态会瞬间影响另一个粒子的状态，无论距离多远。
[106:01] Scaling Laws
- 经验性观察表明，随着算力、数据和模型规模的增加，AI 模型的性能会可预测地提升。
[114:37] RLHF (Reinforcement Learning from Human Feedback)
- 一种使 AI 模型与人类偏好对齐的技术，嘉宾在 Anthropic 曾从事该工作。
[126:28] Agentic Coding
- AI 模型自主编写、调试和执行代码以解决复杂软件工程任务的能力。
[129:24] Policy Gradient
- 一种用于训练模型的基础强化学习算法，被提及为一个基本但至关重要的组件。
[150:00] AI 研究中的集体主义
- 现代 AI 的突破需要大型团队为了一个共同目标凝聚在一起工作，而不是依靠个人的“英雄”研究员。
[154:30] ML 编码
- 使用 AI 模型自主编写、执行和调试机器学习代码的过程。
[161:10] 长周期任务
- 需要 AI 智能体在较长时间内运行的任务，这需要高级的内存管理和选择性检索。
[164:30] 预训练与后训练
- 预训练涉及向模型输入海量原始数据，而后训练则使用目标数据和强化学习来完善模型的行为和能力。
[190:00] 世界模型
- 旨在理解、模拟和预测物理世界及其动态的 AI 系统。
[202:46] 3D Torus Topology
- Google TPU中使用的一种网络架构，将芯片连接在三维网格中，优化了大规模集群通信。
[219:52] Old Lamps (老灯)
- 一个俚语，指那些与现代技术脱节但仍试图微观管理和发号施令的资深行业人士。

提及人物 (18)

Shunyu Yao (The other one) — 另一位同名同姓的 AI 研究员，曾在 Tencent 和 OpenAI 工作，引起了行业内的混淆。
Chen-Ning Yang — 诺贝尔奖得主，在清华大学创立了高等物理研究院。
Zhong Wang — Weitone 在清华大学的本科研究导师。
Shoucheng Zhang — 著名物理学家，Weitone 在斯坦福大学的博士生导师。
Dario Amodei — Anthropic 的 CEO，被提及为他们自上而下架构中的关键决策者。
Jared Kaplan — Anthropic 的联合创始人，参与技术领导和缩放定律相关工作。
Sam McCandlish — Anthropic 的联合创始人，参与技术领导工作。
Ilya Sutskever — OpenAI 前首席科学家，在技术领导和决策的背景下被提及。
Tom Brown — 被提及为 GPT-3 等关键论文作者的研究员。
Ben Mann — 被提及为 GPT-3 等关键论文作者的研究员。
Boris — Anthropic 的一名研究员，在开发 Claude Code 方面发挥了重要作用。
Sergey Brin — Google 联合创始人，被描述为 Google 重大 AI 推动背后的最终决策者和“英雄”。
Demis Hassabis — Google DeepMind CEO，在领导层的背景下被提及。
Koray Kavukcuoglu — Google DeepMind CTO，被视为一线的核心技术领导者。
Fei-Fei Li — 在构建世界模型的不同方法的背景下被提及。
F.D.M. Haldane — 诺贝尔物理学奖得主，作为一位有远见的科学家的例子被提及，他在拓扑概念成为主流的几十年前就推动了这些概念。
Geoffrey Hinton — 作为AI领域潜在的“英雄”人物被提及，他几十年来一直坚持自己的研究方向。
Noam Shazeer — Transformer论文的合著者，被引用为现代AI“英雄集体”的一部分。

公司提及 (13)

Google DeepMind · Tencent · Anthropic · OpenAI · Meta · Cursor · GitHub · ByteDance · Apple · Amazon · Google (DeepMind) · DeepSeek · Google

引用 (14)

AI这个事本来也不太需要脑子…最重要特质是靠谱。 — Shunyu Yao @ 01:05

我觉得AI进入下半场…大家都不再担心AI能不能做到，而是担心怎么定义好问题。 — Shunyu Yao @ 05:48

目前没有任何一个场景真正形成了数据飞轮，甚至AI纯粹原生的应用场景，目前除了写代码之外，没有哪个场景变得非常成功。 — Shunyu Yao @ 15:28

AI是一个很centralized的technology，它会让少部分人变得更强，但会让大部分人失去他们的独特价值。 — Shunyu Yao @ 47:15

胆子要大。你不争取是永远得不到的，争取了也有可能得不到，但不争取就绝对得不到。 — Weitone @ 1:15:30

读书不在于读得多，而在于读得深。 — Weitone @ 1:15:52

想法是廉价的。很多想法其实很显然，所有人都在知道，难的是怎么去实现，怎么把它变成一个一个小的可实现的步骤把它做出来。 — AI Researcher @ 131:17

现代的 AI 训练是一个大系统，你其实要了解这个系统的方方面面才能有一个全局的认识… 个人英雄主义时代对于 Language Model 来说可能过去了。 — AI Researcher @ 141:01

你无法阻止 AI 的进步。如果你停下来，其他人会继续前进。世界在推动我们向前。 — Guest @ 151:54

Anthropic 认为在 AI 安全方面每个人都必须听他们的，这种想法非常天真。 — Guest @ 153:16

OpenAI 迫使 Google 采取行动，从而拯救了 Google 的命。 — Guest @ 175:01

我的感觉是绝大多数的new lab都会死。 — Guest @ 203:46

纯做语言模型已经不是一个蓝海了。我觉得晚了，就是末班车已经发车了。 — Guest @ 213:47

人年纪大了不一定会变成老灯… 另一种人就是老灯，自己也不懂，还爱指手画脚。 — Guest @ 219:52

经历 & 个人故事 (11)

[01:27] 姚顺宇本科在清华大学学习物理，随后在斯坦福大学攻读高能物理博士学位。他在 UC Berkeley 做了短短两周的博士后，便离开学术界加入了 Anthropic。在 Anthropic 工作一年后，他转投 Google DeepMind 参与 Gemini 的研发。
[1:08:46] 出生于宁夏的一个小煤矿镇，为了更好的教育搬到上海，但最终就读于表现平平的初中和高中。
[1:14:05] 尽管没有就读于顶尖高中，他还是大胆地给清华大学招生官发短信，争取到了自主招生考试的名额，这改变了他的人生轨迹。
[1:26:26] 在斯坦福大学从凝聚态物理转向高能理论物理，因为他想要更难的挑战，但最终离开了该领域，因为缺乏实验验证让他觉得毫无意义。
[101:30] 嘉宾最初从事理论物理学研究，但觉得它与实际影响太脱节，将其比作“做慈善”。他转向 AI 是因为它能提供更快的迭代速度和更切实的成果。
[112:33] 他加入 Anthropic 很大程度上是因为与已经转型到那里的前物理学同事的人脉关系。他在 OpenAI 的 O1 发布前夕加入了 RL 团队。
[131:39] 在参与了 Claude 3.7 的开发并见证了 Anthropic 的快速增长后，他离开并加入了 Google，以寻求新的环境并学习不同的方法，他觉得自己在 Anthropic 已经吸收了能学到的一切。
[157:30] 嘉宾解释了他离开 Anthropic 的决定，最初是由于对他们以 API 为中心的商业模式感到悲观。然而，他后来意识到自己低估了他们强大的产品战略，特别是像 Claude Code 这样的工具。
[161:10] 离开 Anthropic 后，嘉宾加入了 Google DeepMind，专注于 ML 编码和长周期任务，寻求一个新环境来推动他的研究。
[211:38] 嘉宾解释了他独特的面试过程：给候选人24小时从零开始构建一个强化学习项目，然后进行1小时的深入探讨，以确保他们不是盲目地使用AI来编写代码。
[218:18] 嘉宾提到了他在转型进入AI领域之前的拓扑学背景，以此来类比有远见的物理学家和AI研究员。

工具与模型 (23)

Gemini: Google 的旗舰多模态 AI 模型。
Claude: Anthropic 的 AI 模型，以其推理和代码能力而闻名。
Cursor: 一款由 AI 驱动的代码编辑器，在开发者中获得了极大的欢迎。
OpenCloud: 一家被 OpenAI 收购的 AI agent 初创公司。
Minus: 一家被 Meta 收购的 AI agent 初创公司。
SWE-bench: 一个用于评估 AI 模型软件工程能力的 benchmark。
Gemini: Google 的基础多模态 AI 模型，因其技术执行力而受到赞赏。
Doubao: ByteDance 的 AI 模型，特别因其拥有最佳的语音生成和情感交互能力而受到关注。
Claude: Anthropic 的 LLM，嘉宾提到经常使用它进行编程和与工作相关的任务。
Claude 3: Anthropic 的上一代模型，它给了公司进一步推进的信心。
Claude 3.5 / 3.6 / 3.7: Anthropic 模型的连续迭代版本，其中 3.7 特别专注于强大的智能体编程能力。
GPT-4: OpenAI 的模型，作为 Claude 3 超越的基准，提升了 Anthropic 的内部信心。
O1 (Strawberry): OpenAI 专注于推理的模型，在嘉宾于 Anthropic 从事 RL 工作期间备受期待。
Claude: Anthropic 的旗舰大型语言模型。
Claude Code: Anthropic 开发的一款由 AI 驱动的编码和协作工具。
Gemini: Google 的多模态 AI 模型系列。
ChatGPT / GPT-4: OpenAI 的对话式 AI 模型。
DeepSeek: 一个因在稀疏注意力机制方面取得进展而闻名的 AI 模型。
Strawberry (OpenAI o1): 一个专注于高级推理和强化学习的 OpenAI 模型。
TPU: Google定制的张量处理单元，使用3D torus网络针对大规模AI训练进行了优化。

主题

AI Scaling Laws 与瓶颈 · AI 代码 Agent 的演进 · AI 领域的初创公司与大厂动态 · 软件工程的未来 · 从学术界到 AI 行业的职业转型 · AI 模型评估 · 中美 AI 竞争 · 模型蒸馏技术 · 语音生成与人机交互 · 机器人技术与 VLA 模型 · 量子物理 · 职业转型 · 从物理学向 AI 转型 · AI 缩放定律与黑盒本质 · Anthropic 自上而下的执行文化 · Claude 3.7 的开发与智能体编程 · Google 自下而上的研究文化 · 从个人 AI 研究向系统工程的转变 · AI 研究方法论 · AI 安全与企业战略 · 机器学习的自动化 · 预训练与后训练 · 企业文化（Google、Anthropic、OpenAI） · 长周期 AI 智能体 · 世界模型 · AI硬件基础设施（TPU与GPU） · AI行业趋势与初创公司 · 中美软件市场对比 · AI人才与面试 · AI实验室的企业文化（Google与Anthropic）

要点

AI 模型在能力上正趋于同质化；现在的真正差异化在于产品执行力和定义正确的问题。
写代码是目前唯一成功创造了数据飞轮的 AI 原生应用。
Scaling Laws 可能会面临意想不到的瓶颈，例如数据枯竭或根本的算法限制，而不是无限期地持续下去。
AI 将使技术权力集中化，通过让少数人变得极具生产力同时取代其他人，从而显著改变软件工程师的格局。
中美 AI 模型之间的差距正在缩小，但算力限制迫使中国公司严重依赖模型蒸馏。
语音生成本质上是模型能力问题，而不仅仅是产品 UI 功能，ByteDance 的 Doubao 目前在该领域处于领先地位。
机器人行业拥有廉价、成熟的硬件，但因缺乏具备泛化能力的基础模型而遇到瓶颈。
大胆和承担非常规的风险（比如给招生官发短信）可以极大地改变一个人的职业轨迹。
理论物理学正在向 AI 流失人才，因为 AI 提供了即时、可验证的反馈循环，而高能物理学目前因缺乏实验数据而停滞不前。
物理学背景提供了强大的系统性思维框架，对 AI 研究非常有用。
Anthropic 的成功在很大程度上是由其创始人领导的自上而下、高度一致的执行文化所驱动的。
像 Claude 3.7 这样模型的开发，较少依赖于秘密算法，而更多依赖于对已知技术的严谨工程化和执行。
大语言模型领域个人突破的时代正在消退，取而代之的是庞大、协调的系统工程协作。
AI 研究已经从个人突破转向大规模的集体工程努力。
AI 模型很快将能够自主进行机器学习实验。
后训练正在成为高级模型能力（如长上下文推理）的关键区分因素。
OpenAI 激进的产品战略迫使 Google 克服其创新者窘境并加速 AI 部署。
不同的 AI 实验室有着截然不同的文化：Google 更偏向自上而下且侧重工程，而 Anthropic 则在安全与强大的产品执行力之间取得平衡。
由于其3D torus网络拓扑结构，TPU在海量规模训练方面比GPU具有结构性优势。
纯语言模型作为创业机会的时代已经结束；焦点正转向机器人技术、多模态以及AI for science。
许多从大型科技公司剥离出来的新建AI实验室缺乏可行的商业模式，很可能会失败。
美国在直接、高利润的企业级软件方面表现出色，而中国在复杂的、间接变现的消费级产品中占据主导地位。
完全依赖AI编程工具而不理解底层逻辑，是新晋AI研究员的致命缺陷。