专访 AMI Labs 首席科学官 Saining Xie

时长: 405 分钟 · ▶ 观看视频

嘉宾: Saining Xie 谢赛宁 · AMI Labs 首席科学官

章节 (49)

00:00 · 简介与预告
- 主持人张小珺介绍了 Saining Xie 以及他与 Yann LeCun 的新创业项目。
01:19 · 纽约氛围与 NYU
- Saining 探讨了纽约的艺术氛围，以及他选择 NYU 作为学术生涯起点的原因。
04:33 · 童年与早期互联网时代
- Saining 分享了他的童年回忆，包括旅行、阅读，以及体验中国早期互联网的爆发。
08:43 · SJTU ACM 班与高光时刻
- 他回顾了在著名的 SJTU ACM 班的时光，并幽默地将大学前打游戏的那个夏天称为自己的“高光”时刻。
12:30 · 与顶尖学生的比较
- Saining 解释了为什么他不符合传统的“好学生”模版，以及他是如何探索出自己的道路的。
16:30 · Xiaodi Hou 的影响
- Xiaodi Hou 的《生存手册》及其 7 行代码的 CVPR 论文对 Saining 的职业选择产生了深远影响。
20:00 · 选择计算机视觉
- Saining 解释了他对计算机视觉的着迷，将其比作生物进化中的寒武纪大爆发。
24:52 · 博士申请之旅
- 向 Zhuowen Tu 教授发冷邮件，并在凌晨 3 点的电话后获得博士职位的故事。
30:00 · 早期研究与突破
- 讨论他早期具有影响力的论文，包括 Deeply Supervised Nets 和 Holistically-Nested Edge Detection。
2:30:00 · 对 FAIR 和自监督学习的回顾
- Saining 讨论了他在 FAIR 早期关于自监督学习的工作及其在不同领域的应用。
2:32:10 · Kaiming He 的基础设施与基线
- Saining 分享了 Kaiming He 如何在 FAIR 独自建立强大的 TPU 基础设施，并强调了强大基线的重要性。
2:36:30 · Excel 电子表格方法
- Saining 揭示了使用 Excel 跟踪实验、控制变量和预测结果的严谨做法。
2:41:30 · Kaiming He 的哲学与兴趣
- 探讨 Kaiming He 在 AI 之外的广泛兴趣，包括炉石传说、物理学和哲学。
2:44:20 · 定义“研究品味”
- Saining 引用《金刚经》中的名言来定义研究品味，强调需要看透表象以寻找本质。
2:51:50 · 作为讲故事的研究
- Saining 将撰写研究论文比作导演一部电影，强调了叙事和讲故事的重要性。
2:54:30 · 反脆弱研究
- 讨论建立一个能从冲击和失败中获益的反脆弱研究系统。
2:57:50 · DiT 的发展
- Diffusion Transformer (DiT) 论文背后的故事，它最初在 CVPR 被拒，以及最终取得的成功。
3:08:40 · 向 OpenAI 和 NYU 的过渡
- Bill Peebles 加入 OpenAI 研发 Sora，而 Saining 则转往 NYU 担任教授。
3:14:00 · Cambrian 项目
- Saining 讨论了他目前在视觉语言模型方面的研究，将寒武纪大爆发作为 AI 演化的隐喻。
03:20:00 · 学术界的算力挑战
- 探讨学术界 AI 研究在资金和 TPU 等算力资源有限情况下的困境。
03:26:30 · 视频理解的重要性
- 探讨为什么视频是 AI 理解物理世界和因果关系的终极媒介。
03:34:00 · 重新定义计算机视觉
- 提出计算机视觉是一种视角和泛化过程，而不仅仅是一组任务。
03:43:00 · LLMs 与真正的物理智能
- 解释为什么语言模型只是一根“拐杖”，而真正的智能需要扎根于物理世界。
03:55:00 · 表征学习与 REPA
- 探讨在不完全依赖语言的情况下进行高维表征对齐的需求。
4:10:00 · 定义世界模型
- 嘉宾定义了什么是世界模型，并将其历史渊源追溯到1943年和控制论。
4:16:00 · 状态表示与LLM的局限性
- 讨论如何在世界模型中表示状态，以及为什么LLM缺乏真正的物理理解。
4:26:00 · 业界对世界模型的探索方法
- 分析OpenAI、Runway和World Labs等公司如何通过视频生成和3D资产来探索世界模型。
4:32:00 · 视频Token化的缺陷
- 嘉宾解释了为什么将视频帧作为LLM的一维Token序列处理存在根本性缺陷。
4:40:00 · Scaling Laws与压缩
- 探讨“压缩即智能”的概念，以及Scaling Laws在世界模型中的不同应用方式。
4:46:00 · 数据瓶颈
- 与互联网上相对低带宽的文本数据相比，获取高带宽物理世界数据所面临的挑战。
4:50:00 · 应用：可穿戴设备与机器人
- 世界模型将如何赋能始终在线的AI可穿戴设备和通用机器人。
4:56:00 · 创业与学术陷阱
- 嘉宾分享了他离开学术界去创业的动机，以避免陷入发表论文的“中等收入陷阱”。
5:00:00 · 离开大厂与学术界
- Saining 讲述了他决定离开 Meta 和 NYU，创立一家专注于世界模型的公司的原因。
5:05:00 · 当前 AI 研究的问题
- 他解释了 LLM 军备竞赛和基准测试文化如何扼杀大厂的基础研究。
5:11:00 · 定义世界模型
- Saining 定义了世界模型，并强调了 AI 理解物理世界的必要性。
5:20:00 · “反向 OpenAI”战略
- 他概述了其初创公司建立物理数据收集联盟的战略，并将其与 Mastercard 进行了比较。
5:30:00 · Yann LeCun 与 AI 哲学
- Saining 分享了关于 Yann LeCun 的爱好及其纯粹的 AI 科学方法的轶事。
5:40:00 · 初创公司的进展与愿景
- 讨论了初创公司的融资、团队建设以及维持以研究为中心的文化的挑战。
5:50:00 · 初创公司命名与弱者心态
- 嘉宾讨论了以电影《飞向太空》（Solaris）为他的初创公司命名，并在AI行业中拥抱一种弱者和草根的心态。
5:55:00 · 从研究员到企业家的转变
- 探讨学术研究与创业之间的差异，强调需要勇气和平衡的方法。
6:00:00 · Yann LeCun的愿景与团队建设
- 嘉宾分享了Yann LeCun的愿景如何启发了这家初创公司，并详细介绍了组建一个多元化的六人创始团队的过程。
6:05:00 · 解构AGI与动物智能
- 对AGI定义的批判性讨论，认为人类智能是高度专业化的，而构建“松鼠级别”的智能是一个巨大的挑战。
6:15:00 · 机器人技术与世界模型的未来
- 讨论世界模型在机器人技术中的应用、当前VLA模型的局限性，以及对真正物理理解的需求。
6:25:00 · 个人感悟与应对创业压力
- 嘉宾分享了通过在纽约公园观察日常生活来缓解压力的个人故事，并推荐了有影响力的书籍和媒体。
6:35:00 · 行业观察与未来展望
- 对ByteDance等竞争对手的看法、数据在生成式模型中的重要性，以及关于放下维特根斯坦的总结性哲学评论。
6:40:00 · AI 领域对哲学名言的滥用
- 嘉宾批评了在 AI 论文中引用 Wittgenstein 和 Feynman 的名言来为 LLM 和统一模型辩护的趋势。
6:41:18 · Wittgenstein 的语言游戏
- 讨论语言如何从现实世界的实践和行动中获得意义，而不仅仅是一个符号系统。
6:42:12 · Feynman 关于创造与理解的名言
- 嘉宾解释说，Feynman 的名言指的是物理上的创造和行动，而不仅仅是训练一个 Diffusion Model。
6:43:27 · 命运与作为世界模型的宇宙
- 对命运的哲学探讨，将宇宙视为一个巨大的世界模型，需要巨大的算力来进行预测。

数据 (29)

时间	事实	数值	背景
00:52	AMI Labs 团队规模	25	Saining 的初创公司 AMI Labs 目前的员工人数。
02:55	在美国的年数	13	Saining Xie 在美国生活的时间。
06:18	拥有第一台电脑的年龄	9	Saining 在 9 岁时拥有了第一台电脑，激发了他对数字世界的兴趣。
16:53	一篇 CVPR 论文的代码行数	7	Xiaodi Hou 发表了一篇极具影响力的 CVPR 论文，仅用了 7 行代码。
26:31	寒武纪大爆发时间	530 million years ago	被用作生物史上视觉突然出现的隐喻。
2:32:34	FAIR 租用的 TPU 核心数	5000	FAIR 从 Google Cloud 租用了 5000 个 TPU 核心来试验新硬件。
2:47:58	论文完成时间线	1 month	Kaiming He 通常在提交截止日期前整整 1 month 完成论文撰写。
2:49:15	单行最小文本宽度	60%	Kaiming He 的审美规则：论文中任何一行的文本占据的列宽都不应少于 60%。
3:08:50	Bill Peebles 加入 OpenAI	End of 2022	Bill Peebles 在 End of 2022 加入 OpenAI，继续他在生成式模型方面的工作。
3:16:31	寒武纪大爆发时间线	538 million years ago	用作隐喻来描述生物史上视觉能力的快速演化。
03:23:22	NSF 资助总额	$500,000	NSF 资助在 5 年内提供的总金额。
03:23:46	NSF 年度资助	$100,000	NSF 资助的年度金额，足以资助一名学生。
03:24:08	工业界资助	$100,000 - $150,000	工业界典型的单次资助金额。
03:24:15	资助竞争	100	竞争单项工业界资助的学校数量。
4:12:35	首次提出世界模型概念	1943	Kenneth Craik提出人类大脑拥有一个世界模型来预测行动的后果。
4:28:15	Autodesk对World Labs的投资	$200 million	作为业界投资3D表示和世界模型的例子被提及。
4:46:15	人类感官带宽	1 to 10 billion bits per second	人类通过视觉和听觉等感官处理的数据量。
4:46:25	人类语言带宽	10 to 100 bits per second	与感官输入相比，人类语言的带宽相对较低。
5:08:00	在一篇研究论文上花费的时间	将近 1 年	Saining 和他的学生花了将近一年时间写一篇论文，这是大厂研究人员无法享受的奢侈。
5:08:54	Google 研究人员在类似项目上花费的时间	2 周	由于产品周期的压力，Google 研究人员在两周后被迫放弃了一个类似的项目。
5:27:00	初始办公室数量	4	这家初创公司计划从第一天起就在巴黎、纽约、蒙特利尔和新加坡设立办公室。
5:41:46	初始团队规模	大约 25 人	初始创始团队的目标规模。
5:50:45	电影上映年份	1970s / 2000s	指代不同版本的电影《飞向太空》（Solaris）（Andrei Tarkovsky 与 Steven Soderbergh 版本）。
6:01:10	联合创始人数量	6	嘉宾初创公司的联合创始人总数。
6:04:48	JEPA论文发表年份	2022	Yann LeCun发表关于JEPA认知架构基础论文的年份。
6:08:08	视觉神经纤维数量	200万	人类视觉神经纤维的数量，说明了视觉输入的巨大带宽。
6:14:53	进化时间线	5.3亿年	生物智能进化所需的时间，用于对比构建AI的难度。
6:38:46	数据的重要性	90-95%	在生成式模型中，依赖于数据质量和处理的问题的估计百分比。
6:44:27	关于生命、宇宙以及一切的终极答案	42	在讨论模拟宇宙所需的算力时，引用了《银河系漫游指南》。

研究观点 & 预测 (20)

[26:00] 视觉是人类感知世界的主要方式。
- 证据: 得到了生物学事实的支持，即大脑皮层的很大一部分专门用于视觉处理。
[28:31] 解决视觉问题就是解决智能本身。
- 证据: 视觉是唯一直接暴露在现实世界中的感官，使其成为通用人工智能最关键的组成部分。
[32:00] Deeply Supervised Nets 解决了梯度消失问题。
- 证据: 通过向中间层添加辅助监督，网络可以得到更有效的训练，这一概念后来在 ResNet 中得到了呼应。
[2:33:36] 你研究的上限取决于你的基线有多好。
- 证据: 薄弱的基线会导致假阳性信号，而强大的基线则能逼出真正的突破。
[2:40:13] 研究人员必须在运行实验之前预测其结果。
- 证据: 预测结果可以验证研究人员对系统的心理模型是否正确，或者是否需要调整。
[3:04:17] 扩散模型将从 U-Net 架构转向 Transformers。
- 证据: 与复杂的 U-Net 结构相比，Transformers 提供了更好的可扩展性、效率和更简洁的代码库。
[03:34:28] 计算机视觉是一种视角，而不是一个具体的任务。
- 证据: 它是通过连续、高维、嘈杂的信号理解世界的基本方式，对未来的 AI 至关重要。
[03:43:42] 语言模型是真正智能的“拐杖”。
- 证据: 真正的智能需要扎根于物理世界，这是单靠语言无法提供的，这呼应了 Yann LeCun 的观点。
[03:55:00] 高维表征学习至关重要，不应被语言绕过。
- 证据: 像 REPA 这样的项目表明，直接对齐内部表征比将所有内容强行通过语言瓶颈更有效。
[4:22:20] LLM并没有完全体现“苦涩的教训”（Bitter Lesson）。
- 证据: LLM仍然严重依赖人类设计的语言结构和逻辑，而“苦涩的教训”主张尽量减少人类启发式方法，转而依赖计算和搜索。
[4:30:45] 通过将视频帧展平为一维序列，直接将LLM架构应用于视频是一条死胡同。
- 证据: 它破坏了物理世界的空间关系和连续性，使其成为学习物理定律的一种低效方式。
[4:42:00] 世界模型的Scaling Laws将侧重于压缩物理现象，而不是人类知识。
- 证据: 未来的模型需要压缩高带宽的感官数据以真正理解物理学，而不仅仅是记住文本。
[5:05:00] LLM 基准测试主导了资源分配，扼杀了基础研究。
- 证据: 大厂研究人员的探索性项目被砍，被迫专注于产品时间表，这就证明了这一点。
[5:18:00] 互联网数据不足以训练真正的世界模型。
- 证据: YouTube 数据偏向于人类娱乐，缺乏真正理解所需的物理信号。
[5:26:00] 物理 AI 需要一种“反向 OpenAI”的方法。
- 证据: 未来的模型将需要与各行业结盟以收集真实世界的数据，而不仅仅是抓取网络数据。
[6:04:35] JEPA不仅仅是一种算法，而是一个全面的认知架构。
- 证据: 它被视为通向通用智能的途径，超越了简单的自监督学习，走向真正的世界理解、预测和规划。
[6:08:40] 人类智能是高度专业化的，而不是纯粹通用的。
- 证据: 人类只能处理所有可能视觉功能的一小部分，这意味着我们的智能是为我们特定的进化环境量身定制的。
[6:13:15] 构建“松鼠级别”的智能比写代码或登月更难。
- 证据: 嘉宾引用Rich Sutton的话指出，创造一个具有内在动机、生存本能和物理理解的AI才是AI真正面临的难题。
[6:40:27] Wittgenstein 的早期哲学并不能证明将 LLM 等同于世界模型是合理的。
- 证据: Wittgenstein 的后期著作推翻了他早期的观点，强调语言的意义来源于现实世界的行动。
[6:43:57] 宇宙是一个巨大的世界模型，但由于缺乏算力，我们无法预测命运。
- 证据: 预测宇宙需要一台有地球或宇宙本身那么大的计算机。

关键概念 (27)

[16:53] CVPR
- 计算机视觉与模式识别，AI 和计算机视觉领域的顶级学术会议之一。
[26:31] Cambrian Explosion
- 大多数主要动物门类出现的一次进化事件；被用作视觉 AI 快速发展的隐喻。
[32:00] Deeply Supervised Nets (DSN)
- 一种神经网络架构，通过向隐藏层添加监督来缓解训练过程中的梯度消失问题。
[34:25] Holistically-Nested Edge Detection (HED)
- 一种用于边缘检测的深度学习模型，利用了多尺度和多级特征学习。
[2:44:20] 研究品味 (Research Taste)
- 能够看透论文表面主张直击其核心本质的能力，并结合在执行和展示研究时的高审美标准。
[2:54:30] 反脆弱研究 (Anti-fragile Research)
- 一种实际上能从意外冲击、失败或随机事件中获益并变得更强大的研究方法或组织结构。
[2:57:50] DiT (Diffusion Transformers)
- 一种生成模型架构，用 Transformers 取代了传统的 U-Net，从而在图像和视频生成中实现更好的扩展性和效率。
[3:15:50] 寒武纪大爆发 (Cambrian Explosion)
- 一个生物学隐喻，用于描述当前视觉语言 AI 模型的快速多样化和演化。
[03:20:45] TPU Research Cloud (TRC)
- 一个向学术研究人员提供免费 TPU 算力资源的 Google 项目。
[03:35:55] 连续的高维嘈杂信号
- 来自真实世界的视觉数据的本质，计算机视觉系统必须处理这些数据，这与干净的文本数据不同。
[03:45:55] 莫拉维克悖论
- 一种观察结论，即高级推理只需要很少的计算量，而低级的感觉运动技能却需要巨大的计算资源。
[04:01:18] 表征对齐 (REPA)
- 一种在不依赖语言的情况下，将生成模型的内部表征与自监督模型对齐的方法。
[4:11:25] 世界模型
- 一个接收当前状态和动作以预测环境下一个状态的系统，从而实现规划和推理。
[4:13:40] 模型预测控制 (MPC)
- 一种控制算法，使用预测模型来模拟未来状态并优化一系列动作以实现目标。
[4:22:20] 苦涩的教训 (The Bitter Lesson)
- Rich Sutton撰写的一篇文章，认为利用大规模计算和搜索的AI方法最终会超越人类设计的、特定领域的启发式方法。
[4:41:55] 压缩即智能
- 一种理论观点，认为高效压缩数据的能力需要对底层模式有深刻的理解，从而将压缩等同于智能。
[5:11:00] World Model
- 一种旨在理解物理世界及其动态的 AI 模型，超越了文本或 2D 视频生成。
[5:26:00] Reverse OpenAI
- 一种通过结盟收集专有物理世界数据，而不是抓取公共互联网数据来构建 AI 的战略。
[5:33:00] JEPA (Joint Embedding Predictive Architecture)
- Yann LeCun 提出的世界模型架构，该架构在抽象表示空间中进行预测，而不是生成像素。
[6:03:30] JEPA (Joint Embedding Predictive Architecture)
- Yann LeCun提出的一种认知架构，专注于在抽象表示空间中理解和预测世界，而不仅仅是预测原始像素或token。
[6:04:40] World Model
- 一种旨在理解现实世界的物理定律和动态的AI系统，使其能够预测未来状态并规划行动。
[6:07:45] AGI (Artificial General Intelligence)
- 被讨论为一个可能存在缺陷的概念，嘉宾认为智能本质上是专业化的，并受到物理和进化限制的约束。
[6:17:50] VLA (Vision-Language-Action)
- 用于机器人技术的模型，将视觉和语言输入直接映射到物理动作，嘉宾认为这些模型目前缺乏真正的物理理解。
[6:40:08] LLM (Large Language Model)
- 在海量文本上训练的 AI 模型，一些研究人员错误地将其等同于完整的世界模型。
[6:41:19] 语言游戏 (Language Game)
- Wittgenstein 的哲学概念，认为如果没有现实世界的实践和行动，语言符号就没有内在意义。
[6:42:58] Diffusion Model
- 一种生成式 AI 模型，嘉宾认为它并没有真正体现 Feynman 的“创造”概念。
[6:43:57] 世界模型 (World Model)
- 一个模拟和预测环境的系统，嘉宾将其放大用来描述整个宇宙。

提及人物 (30)

Yann LeCun — 图灵奖得主，与 Saining Xie 共同创立了 AMI Labs。
Martin Scorsese — 著名电影导演，作为 NYU 校友被提及。
Chloe Zhao (Zhao Ting) — 奥斯卡获奖导演，作为 NYU 校友被提及。
Richard Courant — 数学家，NYU 柯朗数学科学研究所的同名人物。
Xiaodi Hou — SJTU 的学长，写了一本《生存手册》，深深启发了 Saining 投身研究。
Zhuowen Tu — UCSD 教授，在一封冷邮件后成为了 Saining 的博士生导师。
Jiashi Feng — Saining 早期研究期间的导师和合作者。
Kaiming He — FAIR 的同事，深刻影响了 Saining 的研究方法、基础设施建设和论文审美。
Ross Girshick — FAIR 的同事，为建立强大的研究基础设施和基线做出了贡献。
Yuxin Wu — FAIR 的同事，同样为强大的基础设施做出了贡献。
Bill Peebles — Saining 在 FAIR 的实习生，DiT 论文的合著者，后来成为 OpenAI Sora 的核心研究员。
Robert McKee — 《故事》(Story) 一书的作者，Saining 推荐阅读此书以学习如何构建研究论文的结构。
Aravind Srinivas — 在 Palo Alto 的一家咖啡馆向 Saining 展示了一个早期的 AI 演示。
Jia Zhangke — 中国电影导演，因其使用长镜头而被提及，与视频理解有关。
Bi Gan — 中国电影导演，因其使用长镜头而被提及，与视频理解有关。
Fei-Fei Li — 为一篇研究论文提供了关于空间智能的建议。
Alex Kirillov — OpenAI 的合作者，参与了“Think with Image”项目。
Kenneth Craik — 一位生理学家，于1943年首次提出了心智世界模型的概念。
Rich Sutton — Dyna论文的作者，该论文将强化学习中的学习与规划结合起来。
Feifei Li — World Labs创始人，致力于3D空间智能研究。
Jitendra Malik — 伯克利大学教授，他打趣说相比“Word Models”（词模型），他更喜欢“World Models”（世界模型）。
Hou Xiaodi — Saining 在构建产品方面咨询过的一位同行。
Zhang Tao — Minus 的创始人，他建议 Saining 构建好产品需要热爱生活。
Ilya Sutskever — OpenAI 的联合创始人，被 Saining 描述为一名“斗士”，与 LeCun 的科学纯粹性形成鲜明对比。
Andrei Tarkovsky / Steven Soderbergh — 电影《飞向太空》（Solaris）的导演，该电影启发了初创公司的命名。
Pascal — 该初创公司的CRIO（首席研究与创新官）。
Mike — 该初创公司的世界模型副总裁，曾任Meta的总监。
Jurgen Klopp — 前利物浦足球俱乐部主教练，被嘉宾引用（“我是普通人”）来描述他自己的领导风格。
Ludwig Wittgenstein — 哲学家，其关于语言和世界的名言经常在 AI 研究中被引用。
Richard Feynman — 物理学家，其名言“我不能创造的东西，我就不理解”经常在 AI 论文中被滥用。

公司提及 (18)

AMI Labs · Tencent (QQ) · Fanfou · Microsoft Research Asia (MSRA) · FAIR · Google · OpenAI · DeepMind · Perplexity · ByteDance · Runway · Luma · World Labs · Autodesk · YouTube · Meta · Visa / Mastercard · Black Forest Labs

引用 (23)

我希望我自己和我身边的人都能以更加开放的心态看待这个世界。 — Saining Xie @ 09:14

我人生中的高光时刻就是在宿舍打游戏的那两个月。 — Saining Xie @ 11:46

世界已经变了，但我们还没有。 — Saining Xie (quoting Xiaodi Hou) @ 16:32

如果你不做这件事，它在这个世界上就永远不会发生。 — Saining Xie @ 29:16

你的research的上限其实取决于你baseline的好坏。 — Saining Xie @ 2:33:36

你要学会做预测。在你跑每一个实验的时候，你要预测这个实验的结果应该是怎么样的。 — Saining Xie @ 2:40:15

凡所有相，皆是虚妄。若见诸相非相，即见如来。 — Saining Xie @ 2:45:15

不是因为看见所以相信，是因为相信所以看见。 — Saining Xie @ 2:55:52

视觉是一种视角。它不是一个具体的任务，甚至不是一个特定的领域。 — Saining Xie @ 03:34:28

语言就像毒品。你加入越多的语言，你总是会感到越快乐。 — Saining Xie @ 03:48:46

LLM完全缺乏‘苦涩的教训’……你应该尽量减少人类知识的干预。 — Saining @ 4:22:20

他说他最喜欢‘世界模型’的一点是，它告诉所有人我正在构建一个‘世界模型’（world model），而不是一个‘词模型’（word model）。 — Saining @ 4:57:45

大家其实对学术界对这种纯粹的探索性的research其实是有点抵触的。 — Saining @ 5:02:30

世界需要一个世界模型。 — Saining @ 5:11:17

我们想要build这样一个反向的OpenAI。 — Saining @ 5:26:32

经历 & 个人故事 (16)

[04:33] Saining 在一个宽松的环境中长大，父亲热爱阅读，母亲热爱旅行。他在 9 岁时拥有了第一台电脑，并深深沉浸在中国早期的互联网文化中。
[08:43] 他进入了竞争激烈的 SJTU ACM 班，但意识到自己并不是那种擅长竞赛的典型“好学生”，于是选择去探索自己的兴趣。
[16:30] 受到学长 Xiaodi Hou 写的《生存手册》和一篇才华横溢的 7 行代码论文的启发，Saining 决定将自己的职业生涯奉献给计算机视觉研究。
[24:52] 在申请博士期间，他面临了多次拒绝，但他主动向 Zhuowen Tu 教授发送了冷邮件。一通凌晨 3 点的电话让他在 UCSD 获得了职位。
[30:00] 在攻读博士期间，他参与撰写了 Deeply Supervised Nets 和 HED 等极具影响力的早期深度学习论文，奠定了他在该领域的声誉。
[2:30:00] Saining 在 FAIR 度过了四年，最初专注于自监督学习，并将其扩展到 3D 和医疗领域。
[2:32:10] 他与 Kaiming He 密切合作，学习了严谨的方法论，例如在 Excel 中跟踪实验以及在运行代码前预测结果。
[2:57:50] 他指导了实习生 Bill Peebles，促成了 DiT 的诞生。尽管最初被 CVPR 拒绝，他们坚持不懈，最终被 ICCV 接收。
[3:08:40] Saining 离开 FAIR 成为 NYU 的教授，而他的实习生 Bill 加入了 OpenAI，基于他们的 DiT 研究开发 Sora。
[03:25:08] 他没有在办公室开会，而是和一位 Google 合作者去徒步旅行，讨论他们对 TPU 基础设施的贡献，突显了一种独特的合作方式。
[03:33:10] 他的学生带着摄像机走上纽约街头拍摄素材，以测试他们关于预测性世界模型的想法，展示了一种实践性的研究方法。
[4:58:30] 嘉宾解释了他离开学术界去创业的决定。他觉得留在研究领域会导致陷入发表还不错的论文却无法取得突破的‘中等收入陷阱’，而他想构建一个真正有影响力的系统。
[5:00:00] Saining 决定辞去在 Meta 和 NYU 的职位，因为这些环境不再有利于世界模型所需的基础研究。他在一次一对一会议上与 Yann LeCun 分享了这个决定。
[5:08:00] Saining 和一名学生花了将近一年时间撰写一篇研究论文。发表后，Google 的研究人员联系他说，他们也尝试过同样的事情，但由于产品压力在两周后被迫停止，这印证了他离开大厂的决定是正确的。
[5:55:00] 嘉宾描述了从纯粹的研究员转变为初创公司创始人所需的心理转变，强调需要“迎难而上”（拥抱恐惧）而不是退缩。
[6:25:00] 他分享了搬到纽约并应对运营初创公司的巨大压力时，如何通过简单地坐在华盛顿广场公园观察普通人的生活来寻找慰藉。

工具与模型 (24)

Deeply Supervised Nets (DSN): 通过为隐藏层提供集成的直接监督，改善深度神经网络的训练。
Holistically-Nested Edge Detection (HED): 使用利用多尺度特征的深度学习模型执行图像边缘检测和对象边界检测。
AlexNet: 一种开创性的卷积神经网络，在 2012 年引发了计算机视觉领域的深度学习革命。
ResNet: 一种残差神经网络架构，解决了梯度消失问题，在概念上与 Saining 早期的 DSN 工作相关。
TPU: FAIR 用于训练大规模模型的硬件加速器，需要 Kaiming He 构建的定制基础设施。
Excel: 用作严格的组织工具，以跟踪实验配置、变量和梯度信号。
DiT: 一种可扩展的扩散模型架构，在生成任务中使用 Transformers 代替 U-Nets。
Sora: OpenAI 的文本到视频生成模型，严重依赖于 DiT 架构。
Cambrian-1: 一系列多模态大型语言模型，旨在改进以视觉为中心的任务和视觉表示。
CLIP: 一种视觉编码器模型，Saining 指出它在真正的视觉理解方面存在某些缺陷和“捷径”。
DiT (Diffusion Transformer): 在早期 TPU 基础设施工作的背景下讨论的一种生成模型架构。
Cambrian: 一个被提及的多模态项目，作为处理更复杂视觉任务的一步。
V-STAR: 一个旨在测试多模态模型中缩放行为的系统。
REPA (Representation Alignment): 一种在不使用语言作为中介的情况下对齐模型中表征的方法。
Large Language Models (LLMs): 基于文本数据预测下一个词；在视频中被批评缺乏真正的物理理解。
Sora: OpenAI的视频生成模型，被讨论为世界模拟器的早期尝试。
Video Diffusion Models: 用于创建视频内容的生成模型，目前充当基础的物理模拟器。
LLMs (Large Language Models): 当前占主导地位的 AI 模型，擅长处理文本，但缺乏对物理世界的真正理解。
JEPA: Yann LeCun 提出的一种用于在抽象空间中进行预测性世界建模的架构。
JEPA / V-JEPA: 一种预测性架构，通过预测缺失或未来数据的抽象表示来学习世界模型。

主题

中国早期互联网文化 · SJTU ACM 班经历 · 计算机视觉的演进 · 博士申请之旅 · 深度学习架构 (DSN, HED) · 研究方法论 · 基础设施与基线 · 研究品味与审美 · Diffusion Transformers (DiT) · 视觉语言模型 · AI 行业文化转变 · 学术研究资金 · 算力限制 (TPU vs GPU) · 视频理解 · 计算机视觉的定义 · LLMs 与物理基础 · 表征学习 · 世界模型 · Large Language Models (LLMs) · 强化学习 · 表示学习 · Scaling Laws · AI数据瓶颈 · 机器人技术 · AI创业 · AI 研究环境 · 世界模型 · 物理 AI · 初创公司战略 · Yann LeCun 的哲学 · 初创公司创业 · 世界模型 · JEPA架构 · AGI定义 · 动物与人类智能对比 · 机器人技术与VLA模型 · AI中的数据质量 · 创始人的心理健康 · AI 哲学 · 世界模型 · 大语言模型 · Wittgenstein 的语言游戏 · Feynman 的理解哲学 · 算力极限与决定论

要点

Saining Xie 的经历表明，你不必符合传统的“好学生”模版，也能在研究中取得卓越成就。
AI 视觉的“寒武纪大爆发”反映了生物进化，突显了视觉作为智能核心组成部分的地位。
采取大胆的主动行动，例如向教授发送冷邮件，可以彻底改变一个人的职业轨迹。
早期的深度学习研究非常注重克服训练困难，从而催生了 Deeply Supervised Nets 等基础性创新。
强大的基线至关重要；没有它，性能提升只是虚幻的，真正的突破是不可能的。
严谨的实验跟踪（如使用 Excel）和在运行代码前预测结果，对于建立正确的心理模型必不可少。
“研究品味”包括看透论文的炒作直击其核心本质，并在写作中保持高审美标准。
研究是讲故事的一种形式；论文应该被精心打磨，以引导读者顺畅地领悟核心见解。
扩散模型中从 U-Net 到 Transformers 的转变 (DiT) 是一项自下而上的创新，最终为 Sora 等最先进的模型提供了动力。
学术界 AI 研究面临严重的资金和算力限制，迫使研究人员必须足智多谋，并依赖像 Google 的 TRC 这样的项目。
视频是 AI 关键的下一个前沿，因为它提供了理解因果关系和物理世界所需的连续、高维数据。
仅仅依赖语言模型 (LLMs) 是一根“拐杖”；真正的通用人工智能需要扎根于物理现实的系统，这很可能要通过先进的计算机视觉和机器人技术来实现。
世界模型旨在通过预测未来状态来理解物理世界，这与只预测文本的LLM不同。
通过展平视频帧直接将LLM架构应用于视频是低效的，并且会丢失空间上下文。
AI的下一次重大飞跃需要超越低带宽的文本数据，转向高带宽的感官数据，以实现真正的物理理解。
真正的世界模型将赋能始终在线的AI可穿戴设备和通用机器人等高级应用。
当前大厂的 AI 研究环境受到 LLM 军备竞赛和追逐排行榜的扼杀，几乎没有给基础探索留下空间。
真正的世界模型需要来自物理世界的数据，而这些数据无法简单地通过抓取互联网（如 YouTube）来获得。
Saining 的初创公司旨在通过与各行业结盟收集物理数据并构建通用的世界模型，从而打造一个“反向 OpenAI”。
Yann LeCun 的 AI 方法侧重于科学完整性和抽象表示（JEPA），这深刻影响了 Saining 的愿景。
从研究向创业的转变需要思维方式的根本转变，要拥抱风险并专注于团队建设。
真正的智能（如松鼠的智能）涉及内在动机和物理理解，这比当前LLM的能力更难实现。
JEPA不仅被视为一种算法，而且是构建真正世界模型所必需的全面认知架构。
当前的机器人模型（VLA）通常缺乏深刻的物理理解，而是依赖于将语言映射到动作。
在生成式AI中，90-95%的成功归功于细致的数据整理和处理，而不仅仅是模型架构。
AI 研究人员应避免肤浅地引用 Wittgenstein 和 Feynman 等哲学家的名言来为他们的模型辩护。
仅仅是语言模型并不能成为世界模型，因为真正的意义需要建立在现实世界的物理行动和实践基础之上。
虽然宇宙可以被视为一个巨大的世界模型，但由于需要难以想象的计算资源，预测未来（命运）是不可能的。