Episode 133 — 谢赛宁

主持人: 晓军 · 时长: 405 min · ▶ 在 YouTube 观看

对谢赛宁的7小时马拉松访谈：世界模型、逃出硅谷、AMI Labs、两次拒绝Ilya、杨立昆、李飞飞和42

Switch language → en

章节 (76)

00:00:00 · 播客首秀与早期家庭影响
- 主持人晓君介绍本期播客和嘉宾谢赛宁，谢赛宁表示这是他首次接受播客访谈。他分享了童年时期随母亲四处旅行的经历，以及父亲作为“死宅”对阅读的热爱，家中藏书丰富，塑造了他独特的成长环境。
00:00:36 · 互联网的启蒙与表达欲的萌发
- 谢赛宁回忆了9岁时拥有第一台电脑，并经历互联网带来的“信息爆炸”。他开始在博客平台（如新浪博客、饭否）上写作，发现了一个全新的自我表达渠道，并因此培养了广泛的兴趣。
00:01:05 · 非传统学术路径的选择
- 他将自己的学术生涯形容为“B类轨迹”，与许多“A类”同龄人的路径形成对比。他通过竞赛保送进入上海交通大学ACM班，选择交大而非清华北大，是出于对城市和学校计算机专业的个人情感和认同。
00:02:00 · 面试中的缘分与榜样力量
- 谢赛宁讲述了ACM班面试时，沈少爷教授询问他最喜欢的书，他提到了理查德·柯朗的《什么是数学？》，这与他后来在纽约大学柯朗研究所的工作产生了奇妙的连接。他还提到了学长侯晓迪，一位本科生就发表CVPR论文并撰写《交大学生生存手册》的传奇人物，成为他的榜样。
00:03:00 · 对计算机视觉的执着与反抗
- 他解释了自己对计算机视觉的深厚兴趣，源于他感知世界的方式。他反复强调“世界总是不想让我做我想做的事情”，但他坚定地追求自己的热情，甚至主动联系新加坡国立大学的屠卓文教授寻求研究实习机会，而非选择当时更主流的微软亚洲研究院。
00:04:00 · 视觉的演化与生命大爆发
- 谢赛宁深入探讨了视觉在生物学上的重要性，思考如果必须放弃一种感官，他会选择哪种。他将视觉的演化与“寒武纪大爆发”联系起来，认为视觉的出现引发了生物界的“军备竞赛”，推动了物种的快速多样化。
00:05:00 · 首篇论文与深度学习的起点
- 他分享了在本科实习期间发表第一篇研究论文（BMVC）的经历。这一时期，大约在2012-2013年，恰逢“AlexNet时刻”和深度学习革命的兴起，这成为他深入研究和深度学习领域的关键转折点。
00:06:00 · 博士申请的波折与追随导师
- 谢赛宁讲述了博士申请过程中的曲折，他再次面临在心仪的计算机视觉实验室难以获得机会的困境。最终，他通过邮件联系了已转至UCSD的屠卓文教授，并获得了录取。他选择追随导师前往UCSD，将导师和研究方向置于学校排名之上，体现了他对专业和导师的坚定承诺。
00:40:33 · 导师涂老师的知遇之恩与言传身教
- 谢赛宁分享了博士导师涂老师如何在他申请不顺时捞了他一把,并以言传身教的方式指导他做科研,甚至会坐在旁边一行行过代码。涂老师本人也是一位令人敬佩的科学家,在没有现代工具的年代,独立完成了大量底层代码的编写。
00:42:45 · 致敬开创道路的前辈科学家
- 嘉宾向涂老师、朱松纯、李飞飞等在美华人科学家前辈致敬,认为是他们闯出了一条路,才有了今天这一代研究者的机会。他们让华人研究者在计算机视觉领域从圈外走到了圈内。
00:45:23 · 博士期间的代表性工作：DSN 与 HED
- 嘉宾介绍了博士期间的两项重要工作。DSN (Deeply Supervised Nets) 因一个数学公式的笔误被 NeurIPS 拒稿,但十年后获得了 AISTATS 的时间检验奖。HED (Holistic Edge Detection) 则获得了 ICCV 的马尔奖提名,让他体验了「年少成名」的感觉。
00:49:25 · 五年五次实习：在探索中寻找方向
- 博士期间,谢赛宁在导师的支持下,先后在 NEC Labs, Adobe, Meta, Google Research, DeepMind 进行了五次实习。他希望通过探索不同的环境和方向,了解学术界之外的世界,并验证自己对科研的初心。
00:54:46 · 与何恺明共事：ResNeXt 的诞生
- 在 Meta (FAIR) 实习期间,谢赛宁与刚加入的何恺明合作。在一个月的时间里,他们将一个简单的想法发展成了 ResNeXt,并在 ImageNet 竞赛中获得第二名。谢赛宁认为何恺明有「现实扭曲力场」,能将普通想法变成金子。
01:02:57 · DeepMind 印象：远大目标与独特组织
- 在 DeepMind 的实习经历让他印象深刻。他认为 DeepMind 的组织管理模式非常独特,有自下而上的探索,也有自上而下的高效执行。创始人 Demis Hassabis 的目标是让公司获得多个诺贝尔奖,这种雄心令人敬佩。
01:06:51 · 博士论文的统一主线：表征学习
- 尽管博士期间的研究方向看似分散,谢赛宁最终用「带结构化先验的深度表征学习」作为博士论文题目,将所有工作串联起来。他认为表征学习是一个永恒且根本的科研主题,不像一些热门方向会很快过时。
01:21:06 · 拒绝OpenAI，选择FAIR
- 谢赛宁讲述了自己拒绝OpenAI的offer，选择FAIR的经历，并解释了当时FAIR在学术环境和薪资水平上的吸引力，以及Ilya对此的惊讶反应。
01:22:25 · 研究的意义与影响力
- 谢赛宁探讨了研究的真正目的，认为发论文不是终极目标，而是为了分享知识，启发他人。他引用汉娜·阿伦特对“影响力”一词的看法，表达了对过于强调“影响力”的抵触，更看重理解和提升人类整体智能。
01:24:50 · 人际网络与合作的重要性
- 谢赛宁强调了学术界人际网络和合作的重要性，认为研究是一个巨大的有机体，人与人之间的信任和欣赏是基于科学发现建立的，而非单纯的个人关系。
01:29:03 · Yann LeCun与NYU的数据科学中心
- 谢赛宁解释了选择NYU的原因，其中Yann LeCun的远见卓识和NYU数据科学中心的开放环境是重要因素。他描述了数据科学中心独特的玻璃门办公室和跨学科合作模式。
01:35:55 · 李飞飞与定义问题
- 谢赛宁谈到李飞飞教授对他的影响，尤其赞赏她定义问题的能力，认为这比单纯构建数据集更重要。他提到与李飞飞合作的Thinking Space和Canbens论文，拓展了他在世界模型和视频理解方面的研究边界。
01:42:02 · 自监督学习的兴起与挑战
- 谢赛宁回顾了自监督学习的发展历程，解释了其与传统监督学习的区别，以及为什么自监督学习被认为是计算机视觉的未来。他指出，早期自监督学习面临效果不佳的挑战，但其核心思想是让AI获得常识。
01:47:08 · 对比学习与MoCo的突破
- 谢赛宁详细介绍了对比学习的基本逻辑，即在表征空间中拉近相似样本、推远不相似样本。他指出，MoCo（动量对比）是第一个真正让对比学习框架在自监督领域取得突破性进展的工作，并强调了Kaiming He在推动模型大规模化方面的远见。
02:01:42 · 专注的力量:以何恺明为例
- 嘉宾以何恺明为例,阐述了顶尖研究者如何体现「专注」。这种专注表现为将几乎所有的「mental cycle」都投入到一个具体问题上,除了这个问题之外不会想其他任何东西,这是非常难以做到的。
02:04:06 · 顶尖研究者的必备素质
- 一个顶尖的研究者需要具备多项素质:足够的专注力、好的研究品味、坚持不随波逐流的定力。此外,还需要很强的工程能力、研究直觉(research sense),以及在阅读文献时迅速抓住重点、建立高维抽象联系的能力。
02:05:46 · 如何「找到」一个好想法:求索而非顿悟
- 嘉宾分享从何恺明处学到的研究方法论:好的想法不是凭空想出来的,而是通过大量的探索、阅读和思考「求索」出来的。轻易想到的点子要么别人也在做,要么是已经被验证失败的坏点子。
02:06:55 · 研究如同随机梯度下降:寻找「梯度」
- 一个研究周期大约六个月,其中一到两个月的探索期至关重要。这个过程如同随机梯度下降(SGD),重点不是从A点到B点,而是在过程中找到能指引方向的「梯度」(signal)。这个梯度本身,才是真正属于研究者自己的想法的来源。
02:15:15 · 研究影响力的非线性:代表作与「Max」优化
- 嘉宾引用MIT教授Bill Freeman的观点,说明研究的影响力是高度非线性的。大量平庸或还不错的工作影响力趋近于零,而一篇真正顶级的代表作则能带来指数级的回报。因此,研究的目标是优化职业生涯作品的「最大值」(Max),而非「平均值」(Average)。
02:17:44 · 无限游戏:研究者与发明家
- 研究是一个「无限游戏」,研究者更像发明家,一生中只需要成功一次。这与棋手或运动员不同,后者是「有限游戏」,一次失误就可能满盘皆输。然而,当前大公司之间的有限竞争,正在将学术界也拖入有限游戏的模式。
02:22:02 · 盘点AI领域的代表作
- 嘉宾列举了他心目中真正影响了深度学习进程的约20-25篇代表作,如LeNet, AlexNet, ResNet, Transformer, GPT-3, GAN, NeRF等。他谦虚地表示自己的工作(如DiT)只是在前沿上推进了一小步,还远未达到这个级别。
02:33:53 · 「工欲善其事,必先利其器」:基准与脚手架的重要性
- 嘉宾分享了何恺明在FAIR单枪匹马搭建TPU基础设施的经历,并从中提炼出方法论:研究的上限取决于基准(baseline)的好坏。只有将基准和工程做到极致,打造稳固的「脚手架」,才能为真正的探索提供平台,避免被错误的信号误导。
02:42:12 · 何恺明的影响与「研究品味」
- 嘉宾分享了导师何恺明在研究之外的影响,包括对哲学、物理学和进化生物学的兴趣。何恺明曾赠予他《金刚经》,并强调博士(PhD)作为哲学博士(Doctor of Philosophy)应懂哲学,这引出了对「研究品味」(research taste)的深入探讨。
02:44:20 · 研究品味的本质: 破除表象,追求真实
- 研究品味的核心在于打破论文表面的幻象,追寻其背后的本质和真实。这不仅关乎方法,更是一种哲学层面的思考,避免沉迷于论文接收、名声等虚假的「相」。嘉宾还强调了写作和细节打磨(如排版)作为沟通界面的重要性。
02:52:05 · 研究即创作: 科研与电影制作的共通之处
- 嘉宾将做研究比作拍电影,两者都是一个故事叙述(storytelling)的过程。关键不在于背景,而在于在特定时刻做出的选择(decision),这些选择带来了冲突和变化,推动了情节发展。
02:55:36 · ConvNeXt的诞生: 质疑共识,回归本源
- 嘉宾讲述了ConvNeXt的诞生历程。项目源于对「ViT之所以强大是因为self-attention」这一共识的质疑。通过大量的消融实验,团队发现宏观架构设计比self-attention本身更重要,最终设计出了一个纯卷积网络。
03:00:30 · DiT的意外发现与FAIR的文化变迁
- 嘉宾分享了DiT的起源故事。最初团队想研究Diffusion模型学到的表征,却意外发现用ViT替代U-Net做骨干网络效果更好、更高效、更scalable。这个在当时FAIR内部资源紧张、文化开始转变的背景下坚持下来的项目,最终取得了巨大成功。
03:11:13 · 错过的机会与「反脆弱」的研究心态
- 嘉宾坦言曾错过加入OpenAI和早期Perplexity的机会,但他并不后悔。他引述「反脆弱」的概念,认为研究本身就是一个让人变得越来越反脆弱的过程,被拒稿等挫折反而能带来收益,让人免疫。
03:15:42 · 「寒武纪」系列: 系统性解构多模态大模型
- 嘉宾介绍了最新的「寒武纪」(Cambrian)系列工作。该系列旨在系统性地检验和解构多模态大模型的各个组成部分,如视觉编码器、数据构成、架构等,以找到真正重要的因素。这延续了ConvNeXt和DiT背后那种追根溯源的研究精神。
03:22:45 · 北美学术圈的困境：资金与资源危机
- 讲者吐槽北美学术界面临的资源困境，尤其是资金问题。他指出，尽管通货膨胀严重，但像NSF这样的科研经费几十年来没有显著增长，企业赞助也十分有限且竞争激烈，这迫使学者们必须像创业者一样四处「化缘」寻找资源。
03:25:00 · 学术圈的「融资」故事：在远足中向谷歌推销想法
- 讲者分享了自己为了获得TPU计算资源，如何像创业者一样向谷歌的合作者进行推销的经历。他强调，正是这种在资源极度受限的情况下去寻找合作、争取支持的过程，才使得后续的研究成为可能，并感谢了学生们在有限条件下的巨大贡献。
03:27:37 · 电影带来的启发：从长镜头到视频理解
- 讲者阐述了他从图像研究转向视频研究的动机，深受导演毕赣和贾樟柯的影响。他认为毕赣的「长镜头」完美诠释了人类对世界的连续感知，而贾樟柯关于「时间轴上的空间拓展」的论述，则点明了在时序中理解空间的重要性，这成为他研究视频理解的哲学基础。
03:29:38 · 多模态AI的进化蓝图：从L0到L4
- 讲者提出了一个类似于自动驾驶分级的多模态AI进化框架。L0是纯语言模型，L1是当前的图文问答系统，L2是流式事件认知，L3是空间认知，而终极目标L4是构建一个预测性的世界模型（Predictive World Model）。
03:39:57 · CV被边缘化？这是巨大的机会
- 面对主持人关于CV被LLM边缘化的提问，讲者表示毫不沮丧，反而认为这是巨大的机会。他指出，当下的多模态任务过度依赖语言这个「拐杖」，而忽略了与物理世界真实接地的视觉表征，这正是视觉研究可以大展拳脚的领域。
03:44:12 · 真实智能 vs. 虚拟智能：语言模型的局限性
- 讲者定义「真实智能」为能与物理世界交互的智能。他认为LLM主要在数字虚拟空间中运作，而机器人、工业控制等真实世界任务涉及连续、高维、嘈杂的信号，这些是LLM难以处理的，凸显了视觉的根本重要性。
03:49:13 · Scaling Law之辩：语言是强监督，视觉无需Scaling Law
- 讲者提出了一个大胆的观点：语言模型的训练本质上是「强监督学习」，而非自监督。因为语言本身是人类经过几千年文明沉淀、高度结构化的知识压缩，它是一个交流工具，而非思考工具，在压缩过程中丢失了大量物理世界的连续信息。因此，视觉可能不需要遵循和语言一样的Scaling Law。
03:58:10 · 从VISTAR到Think with Image：学术研究如何启发工业界
- 讲者讲述了他的VISTAR项目如何启发了OpenAI的「Think with Image」项目。通过与OpenAI研究员的交流，他提出的关于视觉推理和Test-time Scaling的想法被采纳并最终产品化。这个经历让他感受到学术研究的价值，但也对工业界研究逐渐封闭、不再署名和引用感到遗憾。
04:03:18 · 不要害怕高维度：表征学习的基石
- 嘉宾从Autoencoder的表征层讲起，引述马毅教授的观点，强调高维度是所有机器学习的基石，无论是过去的核学习还是现在的Transformer，高维空间能解决低维空间解不了的问题，不应害怕高维度。
04:05:22 · 未来的赌注：表征是核心，语言是接口
- 嘉宾提出了自己对未来的一个核心判断：学习到好的表征是唯一重要的事情。未来，语言模型将退化为一个简单的通信接口，而真正的智能将由底层的、足够好的表征（即世界模型）驱动。
04:11:08 · 什么是世界模型？从控制论到认知科学
- 嘉宾定义了世界模型：一个能根据当前状态和动作来预测未来状态的系统。他追溯了这一概念的历史，从1943年Kenneth Craik的认知理论，到控制论中的模型预测控制（MPC），说明其核心是预测与规划。
04:15:28 · Dyna与智能的两个系统：RL之父也反RL？
- 嘉宾引用强化学习之父Rich Sutton的Dyna论文，探讨了智能的两种体系：反应式（reactive）和基于模型的（model-based），类比于思考快与慢的System 1和System 2。Sutton也认为纯粹的RL是原始的，需要一个世界模型来进行规划。
04:20:27 · 世界模型的核心：State到底是什么？
- 嘉宾深入探讨了世界模型中’状态(State)’的本质，认为它不应是像素级的精确重建，而是一种对决策有用的、抽象的、层次化的表征。如何构建这种有效的状态表征，正是表征学习的核心任务。
04:25:47 · 殊途同归：所有AI研究都在通往世界模型
- 嘉宾认为，无论是LLM、视频生成还是3D重建，当前AI领域的各种技术路线，本质上都是在从不同角度逼近’世界模型’这个终极目标。因此，现在的路线之争在未来可能会显得可笑。
04:31:31 · 理想世界模型的四大特征
- 嘉宾（引用Yann LeCun）总结了理想世界模型的几个关键特征：理解物理世界、拥有长时记忆、能够规划和推理、并且是可控和安全的。这与当前LLM依赖微调实现安全性的方式有本质区别。
04:36:43 · LLM处理连续信号的根本缺陷
- 嘉宾批评了当前LLM将视频等连续时空信号离散化、序列化为token的方式，认为这完全不合理。他指出，这种方式忽略了世界表征的全局状态，违背了’The Bitter Lesson’，因为语言本身就是一种强加的人类知识结构。
04:43:51 · 语言模型与世界模型的Scaling Law差异
- 嘉宾指出语言模型的Scaling Law基于知识表征，而世界模型，特别是基于视觉智能的模型，可能拥有非常不同的Scaling Law，模型规模不一定需要非常大。
04:45:30 · 世界模型的核心能力：理解与过滤
- 世界模型不需要记忆所有细节，而是通过理解和过滤信息来回答问题。嘉宾以人类大脑处理高带宽感官信息并输出低带宽行为模式为例，强调了过滤系统的重要性。
04:47:05 · 世界模型的数据挑战与“下载人类”概念
- 训练世界模型面临巨大的数据挑战，远超语言模型。嘉宾提出“下载人类”的概念，即收集人类感官数据，并指出YouTube等平台拥有海量视频数据，但数据爬取和版权问题是巨大障碍。
04:50:48 · 世界模型的潜在应用：AI眼镜与机器人
- 嘉宾认为AI眼镜（个人助理）和机器人是世界模型的两个重要应用出口。AI眼镜需要世界模型来理解环境并提供决策支持，而机器人需要更强大的“大脑”来实现通用智能。
04:56:23 · 从学术到创业：定义问题与寻找新范式
- 嘉宾解释了自己选择创业的原因，认为在学术界和大型科技公司内部，受限于资源和产品周期，很难进行真正前沿的、定义问题的研究，容易陷入“中等论文陷阱”。
05:02:18 · 硅谷叙事下的“隐形世界”与真实需求
- 嘉宾指出，在硅谷LLM的叙事逻辑下，存在一个“隐形的世界”，即物理世界中大量未被LLM直接解决的真实问题和需求，例如农场、医院等场景。这些问题需要世界模型来解决，但其数据和问题定义在现有范式下是不可见的。
05:07:00 · 公司愿景：构建通用世界模型与研究驱动
- 嘉宾的公司目标是构建一个通用的世界模型，并将其作为基础，支持语言、视觉、行动、机器人等多种下游应用。公司以研究突破为最重要产品，吸引志同道合的年轻研究者共同探索前沿。
05:11:51 · 研究者与团队文化：避免“超级英雄”模式
- 嘉宾强调公司文化是研究驱动的，不追求“超级英雄”式的明星研究员，而是希望吸引有使命感、愿意共同成长的年轻人。他认为过往的成功者可能难以再次创造突破，更看重团队的整体协作和对前沿的探索精神。
05:24:24 · Amy Labs: 为学术界顶尖人才搭建的桥梁
- 张晓军解释了他创办公司的初衷, 即为那些比许多行业研究员更优秀但在学术界缺乏机会的才华横溢的学生创建一个渠道。他希望将他们与构建通用人工智能的历史进程联系起来。
05:29:23 · “反向OpenAI”与联盟模式
- 他介绍了“反向OpenAI”的概念, 即不从互联网上下载数据, 而是通过一个由拥有特定数据和问题的合作伙伴组成的联盟来构建世界模型。他用万事达卡(Mastercard)作为小银行联盟与Visa竞争的例子来类比这个模式。
05:31:51 · 一家全球化、去中心化的初创公司
- 公司从第一天起就将是全球化的, 在巴黎、纽约、蒙特利尔和新加坡设有办公室。这种由中立人物Yann LeCun领导的去中心化结构, 旨在吸引全球合作伙伴并抵制垄断。
05:33:02 · 为什么是Yann LeCun? “网络巨魔”背后的人格魅力
- 张晓军解释了为什么他选择加入LeCun。他将LeCun描述为一个有原则、温暖且能鼓舞人心的人, 这与他“网络巨魔”的公众形象形成对比。他还分享了LeCun在模型飞机、天文摄影、电子音乐和帆船等方面的多样化爱好和艺术气息。
05:43:21 · JEPA的三重境界: 从质疑到理解再到成为
- 他描述了自己对LeCun的JEPA架构的个人认知历程。从最初的怀疑, 到深刻理解JEPA不仅仅是一个模型, 而是一个完整的认知架构, 最终自己也成为了其信奉者。
05:54:12 · 创业的勇气: 一个滑雪的比喻
- 他将创业比作滑雪, 强调了平衡的必要性以及反直觉地将身体倾向下坡的勇气。他引用并认同“人类的赞歌就是勇气的赞歌”这一信条。
05:57:14 · 招聘哲学: 寻找激情与执着
- 他的招聘重点是寻找那些对某个问题抱有痴迷般激情和执着的人。他分享了何恺明的建议, 即通过观察一个人是否在吃饭、洗澡、睡觉时都在思考同一个问题来识别真正的研究者。
06:04:57 · 创业与AI的未来
- 嘉宾讨论了创业的道路和AI的广阔前景，强调了大型语言模型（LLM）在AI发展中的作用。他认为公司应该着眼于解决大问题，并探索新的突破。
06:11:29 · 创业感悟与智能的本质
- 嘉宾分享了创业的真实感受，包括挑战与喜悦，并坚信自己的选择是正确的。他深入探讨了智能的定义，认为人类智能是专业化的，AI应追求类人智能，但要摒弃人类的自大，并引用Rich Sutton的观点，指出构建松鼠级别的智能更具挑战性。
06:18:51 · 智能的定义与机器人技术的作用
- 嘉宾继续探讨智能的定义，强调它不仅仅是语言模型。他指出机器人技术是AI的“合适出口”，应关注机器人执行家务等实际任务的能力，这些任务对人类儿童来说很简单，但对现有机器人来说却很难。
06:27:19 · 个人哲学与克服挫折
- 嘉宾解释了他的个人座右铭“你不是天选之子，你只是普通人”，并将其与他最喜欢的足球队教练联系起来。他将研究描述为一段在黑暗中摸索的旅程，并强调了寻找灵感和人际连接的重要性。
06:33:24 · 世界模型与现实互动
- 嘉宾强调AI需要超越研究界限，与现实世界互动。他分享了在纽约生活的观察，不同的人过着各自的生活，这让他意识到AI并非所有人的核心关注点。
06:37:19 · AI相关媒体推荐
- 嘉宾推荐了探讨AI主题的电视剧和电影，如《疑犯追踪》、《太空堡垒卡拉狄加》和《全像素空间》，并指出它们对AI影响的深刻描绘。
06:40:51 · 影响深远的书籍与理解的本质
- 嘉宾讨论了两本对他影响深远的书籍：《哥德尔、埃舍尔、巴赫》和《禅与摩托车维修艺术》，强调了它们的哲学深度和个人影响。他反思了这些书籍如何塑造了他对世界和自我的理解。
06:44:38 · AI中的数据与架构及连接的重要性
- 嘉宾讨论了像Stable Diffusion这样的生成式AI模型中数据的重要性，指出90-95%的挑战在于数据。他还强调了人际连接和沟通的核心价值，无论是在研究还是创业中。

金句 (69)

00:00:39 — 谢赛宁:

我不知道，我觉得我更适合做一个听众。我很喜欢 podcast。我经常听很多的 podcast。
- 揭示了他更喜欢消费内容而非创造内容，以及他对播客的热情，为他首次接受访谈的背景做了铺垫。
00:00:57 — 谢赛宁:

我爸是一个纯粹的死宅。从不外出。但是他最爱看的事情就是看书。所以我家里反正有一个书房吧，然后几面墙都是都是书。
- 强调了家庭环境（尤其是父亲的阅读习惯）对他童年时期知识积累和兴趣培养的关键影响。
00:00:59 — 谢赛宁:

我这个后训练现在有点崩，所以中英夹杂的问题，对，观众朋友们不好意思，我尽量尽量解释。
- 他幽默地自嘲了自己长期在国外生活后语言习惯的变化，展现了谦逊和真诚。
00:01:07 — 谢赛宁:

我第一次知道什么叫做内容。然后那时候就会觉得，自己突然有了更多的表达欲。
- 描述了互联网对他产生表达欲望的深远影响，这是他后来投身科研和创业的内在驱动力之一。
00:01:43 — 谢赛宁:

我其实就是说我看跟谁比对吧，跟那些最顶尖的竞赛选手，像我刚刚描述的这颗非常顺利的这个对吧，姚班大神，然后斯大PhD，斯大教授来比，那我真的是远远不如。
- 他谦逊地评价自己的学术背景，与“精英”路径形成对比，突显了他非传统和更具个人选择的成长轨迹。
00:02:50 — 谢赛宁:

我觉得这个世界总是不想让我去做我想要做的事情。但是，但是我偏偏要做我想要做的事情。
- 这是一句贯穿他个人经历的核心哲学，展现了他强大的意志力和坚持自我选择的决心。
00:05:05 — 谢赛宁:

因为我觉得我感受这个世界的方式就是通过视觉。
- 直接阐明了他选择计算机视觉领域研究的深层个人动机，即他对视觉感知与世界互动的深刻理解。
00:09:18 — 谢赛宁:

你要想，如果你不做这件事情，这件事情在这个世界上永远不会发生。
- 一句富有哲理的话，强调了个体行动的重要性，以及每个人在世界上独一无二的贡献潜力。
00:41:39 — 谢赛宁 (Saining Xie):

涂老师是那种,坐在你的显示器旁边,跟你一行一行代码往后去对的这样一个老师。
- 生动地描述了导师亲力亲为的指导风格,体现了老一辈科学家的严谨与传承精神。
00:42:58 — 谢赛宁 (Saining Xie):

他们其实是闯出了一条路,对,本来这条路是不存在的。
- 高度评价了华人前辈科学家在美国学术界开疆拓土的贡献。
00:50:47 — 谢赛宁 (Saining Xie):

你要说什么一鸣惊人,我当初确实觉得,嗯,你看我也是年少成名了…很不幸,这是我最后一次拿 best paper。
- 以幽默和自嘲的方式回顾了自己博士生涯的高光与后续的平静,反映了科研的偶然性和长期性。
01:14:35 — 谢赛宁 (Saining Xie):

一个线性的 research 永远不是好的 research。
- 精辟地总结了科研的非线性、充满不确定性的本质。
01:19:23 — 谢赛宁 (Saining Xie):

我只考虑的事情是,我应该去做哪里,做我最想做的事情,然后最好是跟我最想要共事的人一起共事。
- 清晰地阐述了他在职业选择上的核心原则,即追求兴趣和与优秀的人合作,而非追逐名利或确定的路径。
01:21:14 — 谢赛宁 (Saining Xie):

我什么都没说我就把OpenAI拒了，他们发给我一个offer，然后说我不去，抱歉。
- 直接且果断地拒绝了OpenAI的offer，显示了其当时对FAIR的偏好。
01:21:22 — 晓军:

你为什么不讨论一下就把这个offer拒了？是我们给的钱不够吗？
- Ilya Sutskever对谢赛宁拒绝OpenAI的惊讶，侧面反映了OpenAI当时在业界的地位和吸引力。
01:21:34 — 谢赛宁 (Saining Xie):

我觉得至少在那个时间点上，我身边的所有人如果有这样的选择的话，除非他们是确实要做一些OpenAI已经在做得很擅长的这些事情，我觉得大家还是会倾向于FAIR的。
- 解释了当时顶尖博士毕业生更倾向于FAIR而非OpenAI的原因，强调了FAIR的学术环境优势。
01:22:25 — 谢赛宁 (Saining Xie):

我觉得research的意义，我觉得research不是为了发论文，我不认为发论文是是是这件事情的一个目的。
- 表达了对研究目的的深刻理解，超越了单纯的发表论文，强调了知识的分享和启发性。
01:23:30 — 谢赛宁 (Saining Xie):

我不在乎什么impact，我不在乎影响力这件事情。他觉得impact这个词是一个过于aggressive，过于男性化的一个词。
- 对“影响力”这一概念的独特看法，认为其过于激进，更倾向于通过理解来促进共鸣。
01:24:47 — 谢赛宁 (Saining Xie):

如果能让这个世界上所有的人因为我们做的研究，能够对问题多了一层新的认识，多了一层新的了解，那这个地球上的智能总量就会被提上去。但地球上智能总量提升这件事情永远不是一件错误的事情。
- 阐述了其研究的终极目标：提升地球上的智能总量，认为这是对世界有益的永恒追求。
01:25:49 — 谢赛宁 (Saining Xie):

我从来没有一次要求过任何一家这样的媒体去做这样的宣传。我跟我学生说，你们千万不要去什么去小红书啊，去什么知乎去宣传自己的工作。
- 表达了对研究成果宣传的谨慎态度，反对过度个人化和炒作，强调工作的本质和年轻人的可见性。
01:27:14 — 谢赛宁 (Saining Xie):

我觉得这件事情也很难刻意地做到。或者说这件事情也有点玄学。我会觉得你可以叫它某种吸引力法则，或者说你可以认为大家想法一致的人，最终都会聚合在一起。
- 解释了与顶尖研究者建立联系的“玄学”过程，认为志同道合的人最终会自然汇聚。
01:28:23 — 谢赛宁 (Saining Xie):

我觉得他是一个有某种极致的专注力，然后这个专注力能够让他有某种心流，他能够沉浸在这个问题上，不需要考虑这个世界上发生的所有其他事情。
- 高度赞扬了Kaiming He的极致专注力和进入“心流”状态的能力，认为这是顶尖研究者的特质。
02:09:50 — guest:

这个T度(gradient)本身,这件事情,才是你真正的idea的来源。……一开始你想的这个idea不是你的idea,这个idea不属于你,探索中的idea才是属于你的idea。
- 精辟地总结了研究中「探索过程」比「初始想法」更重要的核心思想。
02:11:38 — guest:

最差的research是什么样的research?就是一开始你定义好了一个问题,……最后你发了一篇论文,这个论文的idea跟你一开始想的idea完全一致,你没有遇到任何的障碍,你没有遇到任何的困难。……这件事情说明你的这个idea是一个boring idea。
- 提出了一个反直觉但深刻的观点,认为一帆风顺的研究往往意味着想法平庸。
02:17:15 — guest:

你这辈子只需要成功一次就好了。
- 形象地描述了研究影响力非线性的特点,强调了单点突破的巨大价值。
02:19:07 — guest:

现在制定这个去哪的人是OpenAI,是Google……他们是有限游戏,但导致他们把学术界也带成了一个有限游戏的这种决策的这样一个链条。……我们怎么样在这个范式下面,用这种叫做’peanuts of resources’,用花生米一样少的这种资源,然后尝试去追赶。
- 敏锐地指出了当前AI学术界面临的困境:被工业界的有限游戏节奏所裹挟。
02:20:43 — guest:

我之所以去Google做这个工作,原因是我先看看Google大家在做什么,这样我就知道我在学术界不做什么。因为如果你在做这件事情的话,我为什么要跟你一起做呢?
- 揭示了一种在资源不对等情况下的高明研究策略:主动避开巨头的主战场,寻找差异化路径。
02:41:32 — guest:

不好不差就没有信号。一个negative的信号的反方向就是一个正向的信号,一个positive的结果的正方向也是一个好的信号。
- 清晰地阐述了如何从实验结果中提取信息,强调了坏结果甚至比没结果更有价值。
02:41:51 — guest:

你要学会做预测。在你跑每一个实验的时候,你要预测这个实验的结果应该是怎么样的。……如果你想对了,说明你前面的这个思维链条是可以往前继续延伸、往前继续推的。如果你想错了,again,这也是一个surprise,也是一样的,也给了你一个信号。
- 提供了一个具体、可操作的科学方法论,即通过「预测-验证」循环来加速认知和迭代。
02:43:26 — 谢赛宁 (Saining Xie):

他一直劝我们的事情是说…欸,那个赛宁,你们在美国读博士,你们的title可都是PhD啊, it’s a Doctor of Philosophy, 是哲学博士。但为什么你们培养出来的人一点哲学都不懂呢?
- 揭示了导师何恺明对研究者哲学素养的重视,为理解「研究品味」提供了背景。
02:44:36 — 谢赛宁 (Saining Xie):

研究审美…它真的是一个内化的东西…包含我其实上述所说的所有的这些事…具体怎么做事情,我觉得这些事情都包含在之内。但…也涉及到一些更high-level的这种这种这种哲学…部分的这种考量。
- 将「研究品味」定义为一个超越具体方法、深入到哲学层面的综合性概念。
02:45:51 — 谢赛宁 (Saining Xie):

凡所有相,皆是虚妄。若见诸相非相,即见如来…你看到的这个事情的本题…你看到的世界也不是实至。
- 引用《金刚经》的核心思想来类比科研追求,强调要看透表象,探究事物的本质。
02:52:05 — 谢赛宁 (Saining Xie):

我觉得做research的过程跟拍电影过程其实没什么不一样。
- 提出了一个核心类比,将科学研究的本质类比为电影创作中的故事叙述和选择过程。
02:55:52 — 谢赛宁 (Saining Xie):

不是因为看见,所以相信。是因为相信,所以看见。
- 引用其本科老师的观点,强调信念(belief)在科学发现中的先导作用,是探索未知的重要驱动力。
03:14:18 — 谢赛宁 (Saining Xie):

Research其实必须得要是一个反脆弱的系统…一个可能的一个random的event,某种黑天鹅事件发生,或者说某种shock…这件事情如果对于这个组织,对于这个人或者对于这个事情来说,你的收益要比你的损失要大,那你的这个组织就是一个反脆弱的组织。
- 清晰地解释了「反脆弱」概念在科研领域的应用,认为研究系统应该从不确定性和挫折中获益。
03:27:44 — guest:

人活在这个世界上就是长镜头。我们的眼睛就是我们的相机, 我们不停歇地在这个世界上面做各种各样的事情, 对吧, 然后我们看到的东西, 这个介质都是video, 都是视频。
- 用电影「长镜头」的概念生动地类比了人类的连续视觉感知，并以此论证视频理解相对于静态图像理解的根本性。
03:28:42 — guest:

贾樟柯说了一句话, 我觉得我非常有认同。他说这个电影之所以很有意思, 是因为你如果只看这个timeline的话, 这是一根时间轴, 它是一个线性的时间轴。但是在这个时间轴的每一个点上, 你需要一个空间去扩展它的时间。
- 引用贾樟柯的观点，深刻地揭示了时间和空间在视觉叙事和理解中的辩证关系，为他的研究提供了哲学层面的思考。
03:44:27 — guest:

现在大家都是只是拄着拐杖, 这个拐杖就是语言模型本身。虽然你可以走走路, 然后你会觉得我走得挺好的, 但是你可能跑不起来, 你也没有办法去参加这个奥运会。对, 因为你有一根腿, 这部分是所谓的视觉的表征的这一根腿, 现在还是还是还是不够好。
- 引用Yann LeCun的比喻，形象地说明了当前多模态系统对语言模型的过度依赖，以及缺乏强大视觉表征的根本缺陷。
03:51:20 — guest:

一个东西免费不代表它没有label。语言是什么? 语言是人在过去这么几千年的civilization, 经过不断的演化, 然后在不管是社会学的意义上, 还是每一个单独的个体的意义上, 然后process了所有的关于这个世界的一切, 然后以一个tokenized的方式把它存储下来。
- 提出了一个颠覆性观点，认为语言模型的训练数据并非无监督，而是经过人类文明长期加工和标注的「强监督」数据，挑战了对自监督学习的传统认知。
03:53:58 — guest:

Language is a communication tool, it’s not a thinking tool. 它是一个交流的工具。如果它是一个交流的工具的话, 你总要make一些trade-off, 你总要牺牲掉一些东西。
- 清晰地定义了语言的本质功能，并指出其作为交流工具必然带来的信息压缩和损失，这解释了为什么纯语言模型无法完全理解物理世界。
04:04:01 — 张小军 (Zhang Xiaojun):

你们一定不能害怕高维度。高维度是所有机器学习里面非常非常重要的一个一个基石。不管是之前的所谓的这种核学习的方式，还是现在为什么一个Transformer里面，我们得要有这种up-projection layer。
- 强调了高维表征在机器学习历史和现代架构中的核心重要性。
04:06:29 — 张小军 (Zhang Xiaojun):

这个世界上只有一件事情是重要的，就是怎么学习到这个表征，这件事情是重要的。当你有了一个足够好的表征之后，在上面处理其他的问题都是简单的。你的language model会逐渐会退化掉到一个简单的communication interface。
- 明确提出了其核心论点和对未来的预测：表征是核心，语言模型是辅助接口。
04:26:11 — 张小军 (Zhang Xiaojun):

我们所有人，不管你在做LLM还是做什么video diffusion model，还是做这个gaussian splatting，我们所有人都在通往世界模型的道路上。所以，我说我有的时候这些竞争或者说这些arguments，听起来我觉得过不了多久，可能过一到两年时间，都会显得异常可笑。
- 提出了一个统一的愿景，认为当前不同AI技术路线的争论是暂时的，最终都将汇合于构建世界模型。
04:39:28 — 张小军 (Zhang Xiaojun):

像素本身也是一个接口，它不是一个…它是给人和看的。语言也是一个接口，它是给人和看的。但它不是world model的核心。world model的核心是它在自发地去学到更好的表征，去做更好的预测。
- 清晰地将人类感知的接口（像素、语言）与机器智能所需的核心（底层表征）区分开来。
04:44:18 — 谢赛宁 (Saining Xie):

语言模型的scaling law是基于一个对knowledge的这种representation所得来的这样一种scaling law。
- 解释了语言模型Scaling Law的底层逻辑，为后续对比世界模型做铺垫。
04:44:51 — 谢赛宁 (Saining Xie):

世界模型，尤其是基于这种visual intelligence的世界模型，我觉得它会有一个非常非常不一样的scaling law。
- 强调了世界模型在Scaling Law上与语言模型的本质区别，预示了新的研究方向。
04:45:11 — 谢赛宁 (Saining Xie):

它不需要通过解一个什么确定的方程，在一个巨高维的空间里面，的方式去判断一颗苹果是不是落下来。
- 生动形象地说明了世界模型的核心能力在于理解和过滤，而非死记硬背或复杂计算。
04:46:32 — 谢赛宁 (Saining Xie):

我们大腦是怎么样一个模型，能够在20瓦的功率下面，把10亿bits per second的信息，通过我们眼睛还有各种各样感官输入进来，转化成我们10个bits per second的一个行为模式。
- 通过人类大脑的例子，阐释了世界模型高效处理和过滤信息，最终转化为决策和行动的机制。
04:47:52 — 谢赛宁 (Saining Xie):

我觉得过去时代是dump这个download Internet的时代。现在时代是download human的时代。
- 提出了一个大胆而富有想象力的观点，指明了未来AI数据获取的方向，从互联网数据转向人类经验数据。
04:52:00 — 谢赛宁 (Saining Xie):

我觉得这件事情可能才是一个真正的难点。可能是一个比数据还要更难的问题。
- 指出世界模型面临的最大挑战可能不是数据本身，而是如何定义和构建其最终产品形态。
04:57:47 — 谢赛宁 (Saining Xie):

我唯一喜欢World Model这一点，是因为它能告诉大家我做的是World Model，而不是Word Model。
- 引用Yann LeCun的观点，巧妙地强调了“世界模型”与“语言模型”的根本区别，突出了其对物理世界的理解能力。
05:04:47 — 谢赛宁 (Saining Xie):

我从质疑JAX到理解JAX到成为JAX，经历了人生的三个stage。
- 幽默地描述了自己对JAX（或广义上的新范式）从怀疑到接受再到拥抱的心路历程，暗示了研究范式转变的挑战与机遇。
05:05:08 — 谢赛宁 (Saining Xie):

世界需要一个世界模型。
- 简洁有力地表达了世界模型存在的必要性和重要性，是其创业的核心驱动力。
05:05:51 — 谢赛宁 (Saining Xie):

这个隐形的世界是在这个硅谷的叙事逻辑下面不可见的。但我觉得这是一个很大的市场。
- 揭示了当前AI领域关注焦点之外的巨大市场潜力，即物理世界中的真实问题，而这些问题在现有硅谷叙事下被忽视。
05:29:23 — Zhang Xiaojun:

我们想要build的这样一个反向的OpenAI…正向的OpenAI是说, 我现在有互联网作为我的数据的发源地, 然后我把数据download下来, train一个transformer…反向的OpenAI是说, 要做这个model本身, 这件事情没办法直接从互联网上download下来。
- 清晰地定义了其创业公司的核心理念, 与主流方法形成对比。
05:31:51 — Zhang Xiaojun:

World model needs the world.
- 一句话概括了其构建世界模型需要全球协作的哲学。
05:35:16 — Zhang Xiaojun:

他(Yann LeCun)这件事情是不受到外界的任何事情的干扰的…但他这件事情不代表他完全是一个固执的, 听不进任何话的人…他说我完全可以被move, 但我需要基于事实来被move。
- 深刻描绘了Yann LeCun坚持原则但又尊重事实的科学家人格。
05:36:36 — Zhang Xiaojun:

我作为一个科学家的正直 (My integrity as a scientist) … cannot accept this.
- 引用Yann LeCun的话, 揭示了LeCun离开Meta背后基于科学诚信的深层原因。
05:55:17 — Zhang Xiaojun:

人类的赞歌就是勇气的赞歌。我觉得这也是我的一个对于创业的认知。
- 表达了其创业精神的核心, 即拥抱不确定性和挑战的勇气。
05:57:44 — Zhang Xiaojun:

你一天起床要想这个问题, 吃饭的时候要想这个问题, 洗澡的时候要想这个问题, 睡觉的时候可能可以不用想, 但可能带着这个问题睡觉。
- 生动地描述了他所看重的研究者应有的痴迷和投入状态。
06:02:22 — Zhang Xiaojun:

我们不是含着金汤匙, 我们完全没有这种感觉。我觉得我们是一个underdog。
- 尽管获得了巨额融资, 但他将公司定位为挑战主流范式的“劣势者”, 体现了其创业心态。
06:05:04 — 谢赛宁 (Saining Xie):

他需要有这种world understanding的能力，他需要理解世界的能力，然后他需要能够有做prediction的能力，然后他他需要有能做planning的能力。
- 定义了高级AI除了简单学习之外所需的核心能力，包括世界理解、预测和规划。
06:05:55 — 谢赛宁 (Saining Xie):

这件事情让我觉得嗯，这个公司可以做，并且有很大的机会可以做成功。原因它不是把事情做小了。
- 通过专注于解决大问题，表达了对公司潜力的信心，这与普遍趋势形成对比。
06:09:02 — 谢赛宁 (Saining Xie):

我看了这本书之后，我会放弃更多这种人类的自大。我觉得我觉得这种智能演进是一个连续的过程，它不是一个说，哎，人就真的是独一无二。
- 倡导对人类智能保持谦逊，将其视为连续进化过程的一部分，而非独一无二的存在。
06:13:13 — 谢赛宁 (Saining Xie):

我觉得能够打造出来一只松鼠的智能，这件事情才是难的问题。
- 引用Rich Sutton的观点，强调了创造看似简单的动物智能的复杂性，挑战了对AI难度的传统看法。
06:20:14 — 谢赛宁 (Saining Xie):

我希望鼓励大家的事情是说，不要只关注那些我们每一个个体做不到的事情。关注一下我们现在做的很好的事情。
- 鼓励人们关注人类已有的能力和优势，而不是仅仅盯着AI的局限性。
06:32:21 — 谢赛宁 (Saining Xie):

我每天最解压的时光就是这大概五到十分钟的路。我发现这个世界比我们想象的大的多。不是所有人都关心什么叫做AI。
- 反思了AI泡沫之外更广阔的人类体验，强调了世界中关注点的多样性。
06:46:58 — 谢赛宁 (Saining Xie):

我只是不喜欢看到大家paper里面，开篇先拉一句话放在这，然后我觉得这件事情不符合我的审美。
- 表达了对学术界不加深入理解地引用哲学家言论的不满，强调了个人审美和对深度的追求。
06:48:39 — 谢赛宁 (Saining Xie):

我还是相信人与人之间的交流这件事情很重要。
- 总结了其核心的个人信念，即人际连接和沟通在个人和职业发展中都至关重要。

预测 (6)

01:08:16 (长期) — Demis Hassabis: DeepMind 最后会成为一个能拿 multiple Nobel Prizes 的公司。
02:25:56 (长期) — guest: LLM(大语言模型)中将凋零。它不是我们构建一个universal(通用)智能系统的基石,它不是这个世界模型的这个大厦的地基。
04:06:29 (未来) — 张小军 (Zhang Xiaojun): 未来，语言模型（LLM）将不再是智能的核心驱动力，而是会退化成一个与底层世界模型交互的简单通信接口。
04:26:11 (1-2年) — 张小军 (Zhang Xiaojun): 当前AI领域中不同技术路线（如LLM vs. 视频生成）之间的竞争和争论，在一到两年内将显得可笑，因为所有路线最终都将统一到构建世界模型的目标上。
05:49:19 (Short-term (by March of the recording year)) — Zhang Xiaojun: 我们接下来三月也许这个节目播出的时候, 我们还有另外一篇paper要放出来, 这个paper叫Solaris。
06:07:07 (Mid-term) — Zhang Xiaojun: 被催眠的人总有醒来的一刻。然后我觉得那时候我们完全不排除去硅谷设立公司。

视觉信号(纯转录看不到的)

录制设定: An indoor studio or loft-style office with an exposed brick wall in the background. · production: Professional

props: Professional microphones on stands on a light-colored wooden table, Guest’s smartwatch on his left wrist, Guest’s dark button-down shirt with a small Vivienne Westwood orb logo

能量变化 (15)

📈 01:23:08 — Recounting his awkward job talk at FAIR where he finished too early.
- A brief, genuine smile and a slight chuckle, showing self-awareness and humor about a past mistake. The energy becomes lighter and more personal.
📈 01:45:48 — Explaining the philosophical purpose of research as a way to seek understanding and connect with others.
- His expression becomes more earnest, and his hand gestures become more deliberate and expansive, reflecting the deeper, more abstract nature of the topic.
📈 02:03:37 — Describing the qualities of his mentor, Kaiming He.
- The speaker’s rate of speech increases, he leans forward slightly, and his hand gestures become more frequent and emphatic. He nods for emphasis and his eyes widen, conveying strong admiration and excitement for the topic.
📈 02:12:00 — Explaining the non-linear, winding path of research.
- The speaker breaks into a smile and uses a fluid, winding hand gesture to illustrate the concept of a ‘winding and twisting’ (弯弯绕绕) research journey, showing his amusement and passion for the metaphor.
📈 02:51:00 — Apologizing for mixing languages
- Xie Saining’s energy becomes more lighthearted and humorous. He smiles self-deprecatingly and uses a tech-specific metaphor (‘my back-end training is a bit broken’) to describe his language skills, which creates a moment of connection and laughter.
📈 03:04:00 — Explaining the concept of ‘research taste’ and its connection to philosophy.
- His speech becomes more animated, and his hand gestures become more frequent and expansive. He leans forward slightly, showing increased engagement with the abstract topic.
📉 03:05:29 — Recalling that the DiT paper was initially rejected by a conference.
- He gives a brief, wry smile and a slight shrug, transitioning into a more matter-of-fact, resigned tone. The energy is not one of sadness, but of ironic acceptance.
📈 03:24:45 — Recounting his personal experience ‘pitching’ to a collaborator at Google.
- He leans forward slightly and his hand gestures become more frequent and animated, showing increased personal engagement with the story.
📈 03:39:58 — Refuting the idea that computer vision researchers are frustrated by the rise of LLMs.
- His posture becomes more upright, his tone (inferred from his expression) becomes more assertive, and he makes strong, direct eye contact with the host, non-verbally underlining his conviction.
📈 04:03:55 — Recounting Professor Yi Ma’s passionate defense of high-dimensionality.
- 晓军的语速加快，手势幅度变大，身体更加前倾，眼神变得明亮，生动地模仿和转述马毅老师的激动情绪，表现出强烈的认同感。
📉 06:06:03 — The host asks about his personal feelings after starting his company (‘创业以后感觉怎么样’).
- His posture becomes more contained and his gaze shifts downward, indicating a move from intellectual explanation to personal reflection.
📈 06:07:08 — Discussing the philosophical debate around AGI and Yann LeCun’s arguments.
- He becomes more animated, using more frequent and emphatic hand gestures to explain complex concepts.
📈 09:28:20 — Introducing the concept of ‘world models’ (世界模型).
- Gestures become more expansive and definitive. His speech cadence becomes slightly more pronounced as he introduces this key concept.
📈 25:40:00 — Explaining the Cambrian Explosion and the evolution of vision
- His energy shifts to that of an enthusiastic professor. He becomes highly animated, leaning forward and using his hands to illustrate complex concepts like the evolutionary ‘arms race’ and the structure of the brain.
📈 35:38:00 — Recounting the dramatic, last-minute nature of his PhD application process
- His energy becomes high and engaging as he tells the story. He smiles, shakes his head in amusement, and uses dramatic hand gestures to re-enact key moments, like his professor’s sudden job change and his own decisive response.

强调动作 (24)

01:21:06 — “Describing how he rejected OpenAI’s offer without much discussion.”
- He holds both hands up, palms facing each other, creating a defined space between them, and then makes a quick, dismissive gesture. · The initial gesture contains the ‘offer’, and the subsequent motion visually enacts the quick rejection he is describing.
01:38:00 — “Describing Dumbo, Brooklyn as ‘very artistic’ (非常艺术).”
- He brings both hands up, palms facing each other with fingers spread. · The gesture visually ‘shapes’ or ‘frames’ the abstract concept of artistry, making his description more vivid.
01:52:57 — “Explaining Yann LeCun’s ‘cake analogy’ for different types of machine learning.”
- He uses his hands to physically layer the components: a wide, flat base for self-supervised learning (‘the cake’), a thinner layer on top for supervised learning (‘the icing’), and a final pinch with his fingers for reinforcement learning (‘the cherry’). · A direct and powerful visualization that makes a complex technical analogy immediately intuitive to a layperson.
02:03:19 — “Kaiming He has the ability to meticulously analyze and extract the core points o”
- The speaker brings his hands together in front of him and makes a delicate motion with his fingers, as if pulling fine threads apart. · The gesture provides a direct visual metaphor for the meticulous and careful process of ‘drawing silk from a cocoon,’ reinforcing the idea of extracting key insights from complex information.
02:03:23 — “He can establish connections in a high-dimensional abstract space (‘建立这种高维度的抽象的空”
- He holds his hands up, palms facing each other, and moves them apart to define a three-dimensional space in front of him. · This gesture physically carves out the ‘abstract space’ he is describing, making a highly conceptual idea more tangible for the viewer.
02:39:30 — “A negative signal’s opposite direction is a positive signal (‘一个negative的信号的反方向就”
- He uses his right hand to point in one direction for the ‘negative signal,’ and then immediately uses his left hand to point in the opposite direction for the ‘positive signal.’ · The gesture creates a clear, physical opposition that perfectly illustrates the inverse relationship he is explaining, making the logic immediately intuitive.
02:42:00 — “Explaining abstract concepts related to social interactions in gaming.”
- Holds both hands up and open, palms facing each other, as if shaping or holding an invisible object between them. · This gesture is used to give form to an abstract idea, making it feel more tangible for the listener as he describes it.
02:43:19 — “The meaning of PhD: ‘It’s a Doctor of Philosophy’.”
- He uses his right hand to make small, distinct chopping motions in the air as he says each part of the phrase. · The gesture breaks down the term into its components, emphasizing each word to highlight the philosophical root of the degree, which is central to his point.
03:04:35 — “Describing a ‘more elegant solution’ in research.”
- Makes a smooth, sweeping gesture with his right hand, palm down. · The fluid, clean motion visually represents the concept of ‘elegance’ and ‘simplicity’ he is describing in a technical context.
03:22:42 — “The funding system for academia has not increased despite inflation, making ever”
- He holds his hands apart and parallel, then moves them upwards together. · The gesture visually represents two parallel tracks (costs and funding) where one (costs) is rising, illustrating the growing gap he is describing.
03:24:06 — “A grant of $100,000 can only support one student for one year.”
- Raises his right index finger to emphasize the number ‘one’. · A classic enumerating gesture used to add weight and specificity to the quantitative point being made.
03:28:40 — “A movie’s timeline is a linear axis, but at every point on that axis, there is a”
- He first traces a horizontal line in the air with his right hand to represent the timeline, then opens both hands to form a three-dimensional ‘box’ to represent the spatial dimension at each point. · This is a powerful visual metaphor, translating a complex spatio-temporal concept from physics and film theory into a simple, understandable hand movement.
03:44:18 — “A true ‘real world’ intelligence must interact with the physical world, not just”
- He gestures forward with both hands, pushing away from his body. · The gesture physically separates the ‘self’ (the AI model) from the ‘world out there,’ emphasizing the concept of embodied interaction with an external environment.
04:03:01 — “Explaining the concept of high-dimensional representation space in AI models.”
- 晓军双手在胸前打开，手掌相对，仿佛在勾勒一个无形的、立体的空间。他通过移动双手来比喻不同维度、不同层次的概念，如将低维向量‘变成’高维表征。 · This gesture makes the abstract idea of ‘space’ and ‘dimensionality’ tangible for the viewer, visually representing the conceptual framework he is building with his words.
04:07:25 — “Describing the brain as a complex architecture with multiple components.”
- 他用手指轻轻敲击自己的太阳穴，然后双手再次打开，模拟大脑的不同区域。 · The gesture directly links the abstract concept of a ‘cognitive architecture’ to the physical brain, grounding the technical analogy.
06:05:06 — “JEPA is not a specific method but a vast ocean (‘一个非常非常广阔的海洋’).”
- He spreads his hands wide apart, palms up. · This gesture visually represents the concept of vastness and scale, directly mirroring his words.
06:07:47 — “The number of possible visual functions is enormous.”
- He raises his right hand with his index finger pointing up to emphasize the scale of the number he is describing. · The gesture draws attention to the specific, large number, highlighting its significance in his argument.
06:09:47 — “The intelligence of a squirrel is the real hard problem.”
- He uses his hands to form a small, contained shape. · This gesture contrasts the seemingly small and simple ‘squirrel intelligence’ with the grand, abstract problems often discussed, emphasizing that the former is the more profound challenge.
09:27:21 — “一个模型去通过真正理解这个世界的方式去回答问题 (A model that answers questions by truly understanding t”
- Holds both hands up, palms inward, as if holding or defining a spherical space between them. · Visually conceptualizes the abstract ‘model’ as a tangible object that can be examined, giving form to the idea.
09:28:26 — “它会有一个非常非常不一样的 scaling law (It will have a very, very different scaling law).”
- Makes a sharp, downward slicing motion with his right hand. · The gesture creates a strong visual metaphor for a ‘different’ or divergent path, emphasizing a break from the established norms of language models.

真实性 tell (16)

01:21:00 — Genuine, slightly embarrassed laugh at the start of the interview.: Responding to the host’s initial comments before the formal questions begin.
- This unscripted moment of laughter helps break the ice and establishes a relaxed, authentic rapport between the host and guest from the outset.
01:23:08 — Self-deprecating smile and laugh.: When recounting how he finished his one-hour job talk at FAIR in only 30 minutes, making everyone feel awkward.
- His ability to laugh at a past professional blunder makes him seem humble, relatable, and not overly concerned with maintaining a perfect image.
01:46:27 — Looks down and to the side, pausing thoughtfully.: Before answering the question ‘Why are people so important to you?’.
- This is a classic ‘accessing memory/thought’ cue. Instead of a canned answer, he is genuinely considering the question, which lends weight and sincerity to his subsequent response about the nature of research and human connection.
02:03:30 — A brief, genuine smile and slight laugh.: After the interviewer says ‘This is very difficult,’ the speaker smiles and agrees, ‘I think it’s very, very difficult.’
- The smile and laugh indicate a moment of genuine agreement and shared understanding with the interviewer, showing that his high praise for his mentor’s focus comes from a place of authentic experience and admiration, not just prepared talking points.
02:33:18 — A self-deprecating chuckle and glance away.: When stating he hasn’t produced a truly valuable paper yet, he follows it with a slight laugh and looks down.
- This moment of humility feels genuine. It’s a common trait among high-achievers to downplay their own successes when discussing foundational, field-defining work, and his body language here reflects that authentic self-assessment.
02:43:25 — A brief, self-deprecating laugh and smile.: After quoting Kaiming He’s question about why PhDs don’t know philosophy, he laughs while saying ‘a soul-searching question’.
- The laugh shows his genuine amusement and perhaps a hint of embarrassment, acknowledging the truth and irony in the critique. It makes the anecdote feel personal and relatable.
03:05:29 — A wry smile and a slight shake of the head.: When revealing that the highly influential DiT paper was rejected by CVPR.
- This reaction conveys a sense of ‘can you believe it?’ irony and shows he has processed the initial frustration. It’s a moment of candid reflection on the unpredictable nature of peer review.
03:25:37 — A genuine, slight smile and nod.: The host uses the term ‘化缘的过程’ (a process of begging for alms, used humorously for fundraising) to describe his efforts to secure academic funding.
- His smile shows he appreciates the host’s humorous and apt analogy, creating a moment of rapport and demonstrating a relaxed self-awareness about the difficulties of academic funding.
03:39:58 — Immediate, firm headshake and direct eye contact.: In response to the direct question of whether he and his peers feel frustrated (‘沮丧’) by the dominance of LLMs.
- The speed and conviction of his non-verbal denial, which precedes his verbal explanation, strongly suggest his subsequent positive framing of the situation is his genuine belief, not a polite deflection.
04:03:55 — Smiling slightly and leaning forward with increased animation while recounting an anecdote about another professor.: He is sharing a story about Professor Yi Ma’s passionate argument for high-dimensionality, a view he clearly shares and respects.
- The shift in his demeanor from purely analytical to animated and slightly reverent shows his genuine respect for Professor Ma and his passion for the topic. It’s a moment of personal connection to the academic community, not just a dry explanation.
04:57:00 — Laughing and saying ‘This is why I don’t want to do podcasts’ (这就是为什么我不想做播客).: When asked a deep, personal question about his earliest memories and childhood.
- A humorous deflection that reveals a moment of genuine unpreparedness or slight discomfort with deep introspection on the spot. It makes him appear more relatable and less like a polished media figure.
06:06:06 — A brief downward gaze and a slight pause before answering.: He is asked about his true feelings (‘真实地感受’) after becoming an entrepreneur.
- The pause and gaze shift suggest genuine introspection and a move away from a rehearsed answer, lending authenticity to his subsequent reflections on the ups and downs of his journey.
06:06:57 — A quick, firm nod while saying ‘对’ (Right).: He is agreeing with the host’s observation that his fear disappeared once he committed to his path.
- The decisive nod reinforces his verbal agreement, suggesting this is a deeply felt and confirmed part of his experience.
09:28:34 — Slight upward glance and brief pause.: Just before stating ‘我现在的直觉是这样’ (My intuition now is like this), when about to offer his own hypothesis on world model scaling.
- The non-verbal cue suggests he is accessing his own thoughts and formulating a genuine, unscripted opinion, rather than reciting a prepared point. This enhances his credibility as an expert sharing a real-time insight.
09:29:04 — A quick, slight smile and soft chuckle.: In response to the host’s question about ‘人类最高级的知识’ (the highest level of human knowledge), before gently redirecting the conversation.
- This authentic reaction shows he acknowledges the philosophical depth of the question while skillfully avoiding a tangent. It’s a moment of spontaneous, personable interaction that builds rapport.
34:48:00 — Matter-of-factly stating his undergraduate rank was not at the very top.: When asked if he was a top student in the competitive ACM class.
- He states his rank (‘around 10th’) and that he ‘couldn’t become’ number one with a calm, direct demeanor, showing a lack of ego and a comfortable self-awareness that is free from false modesty.

转录会丢失的事实/质感

The main visual throughout the video is a podcast cover graphic, which incorrectly identifies the guest as ‘ZHANG XIAOJUN’ instead of his actual name, Xie Saining, which is used in the audio.
The guest’s frequent and expressive hand gestures add a layer of dynamism and emphasis to his explanations that is entirely absent in a transcript.
The setting in a Brooklyn loft, with its brick wall and professional lighting, contrasts with the host’s description of the cold, snowy New York winter outside, creating a warm and intimate atmosphere for the conversation.
The non-verbal cues, such as Xie Saining’s moments of self-deprecating laughter and the host’s attentive nodding, establish a friendly and comfortable dynamic that encourages candid storytelling.
The guest’s constant, fluid hand gestures are not just for emphasis but seem integral to his thought process, as if he is physically shaping and organizing abstract ideas in the air in front of him.
The contrast between his calm, measured speaking style and the fast-paced, high-stakes world of AI he is describing.
The visual branding of the podcast (name, episode number, stylized background) is consistently present, reinforcing the identity of the show.
The speaker’s communication is highly kinesthetic; his hands are constantly shaping, connecting, separating, and illustrating the abstract concepts of research methodology he discusses. A transcript would miss how he physically embodies his ideas.
The contrast between the speaker’s dynamic, passionate delivery and the static, almost sterile graphic design of the podcast frame.
The consistent off-camera gaze, which implies a comfortable, in-person rapport with an unseen interviewer, making the monologue feel more like a natural conversation.
The contrast between the highly abstract and philosophical topics (the nature of research, the Diamond Sutra, antifragility) and the speaker’s calm, clear, and grounded delivery.
The consistent use of hand gestures not just for emphasis, but as a tool to visually construct and manipulate the complex ideas he is explaining.
The small, stylish detail of the Vivienne Westwood logo on his shirt, which contrasts with the typical academic attire and adds a layer to his personal presentation.
The professional branding of the podcast, with consistent graphic overlays, which frames the conversation as a formal, high-value piece of content.
The speaker’s constant and highly descriptive use of hand gestures to ‘sculpt’ abstract concepts like funding systems, model architectures, and spatio-temporal relationships in the air. This visual layer is a primary mode of communication for him and is completely lost in a transcript.
The subtle but consistent way he maintains eye contact with the off-screen host, which makes the interview feel like an intimate, focused conversation rather than a public address.
The calm and measured pace of his speech, which contrasts with the complexity of the topics, conveying a sense of deep expertise and confidence.
The physical embodiment of his ideas, such as when he acts out looking for an object in the room to explain visual reasoning, which makes abstract cognitive processes feel concrete and intuitive.
晓军在整个片段中都非常依赖双手手势来阐述观点，这在纯文本中完全无法体现。他的手势不仅仅是强调，更是在‘塑造’和‘划分’他所谈论的抽象概念空间。
他佩戴了两块手表，左手是传统黑色表带手表，右手是智能手表，这是一个独特的个人视觉细节。
他讲述马毅老师的故事时，脸上流露出兴奋和崇敬的混合表情，这为他所阐述的技术观点增添了强烈的情感色彩和说服力。
视频的背景是一种精心设计的品牌视觉，而非真实场景，这表明了这是一个专业制作的访谈节目。
The constant, descriptive hand gestures used by Zhang Xiaojun to illustrate complex, abstract concepts like ‘models’, ‘scaling laws’, and ‘parameters’. His hands are almost a second voice, shaping and defining his ideas visually.
The professional studio environment, including the graphic overlays, which establishes the context as a high-production value podcast, not an informal conversation.
The subtle, authentic facial expressions, such as his thoughtful pauses and slight smiles, which reveal his process of thinking and his engagement with the host’s questions.
The guest’s personal style detail of wearing two watches, one on each wrist.
The speaker’s consistent use of hand gestures to shape abstract concepts, such as forming a container with his hands when discussing the components of JEPA or spreading them wide to signify a ‘vast ocean’.
The visual contrast between the speaker’s intense, focused expression when discussing technical or philosophical topics and his softer, more reflective expression when discussing his personal journey and motivations.
The speaker wears two different watches/wristbands, one on each wrist, a distinctive personal quirk.

提及实体

人物 (70): Alex Kirillov, Andrei Tarkovsky (塔可夫斯基), Aravind Srinivas, Bi Gan, Bill Freeman, Bill Peebles, Bowen, Charlie Parker, Demis Hassabis, Douglas Hofstadter, Eddy (艾迪), Fei-Fei Li, Hannah Arendt, Ilya, Ilya Sutskever, Jia Zhangke, Jose Mourinho, Jurgen Klopp, Kaiming, Kenneth Craik, Ludwig Wittgenstein, Ma Yi, Martin Scorsese, Michael Rabbat (Mike), Pascal Fung (冯), Piotr Dollár, Rich Sutton, Richard Feynman, Robert McKee, Robert Pirsig, Robin Rombach, Ross Girshick, Sam Altman, Serge Belongie, Stanisław Lem (莱姆), Steven Soderbergh (索德伯格), Tim Brooks, Yann LeCun, Zhang Xiaojun, 于老师, 何加迪, 何恺明, 何恺明 (Kaiming He), 余泳, 侯晓迪, 冯佳时, 刘壮, 刘宇昆, 叔本华, 向语 (Xiangyu), 吴宇欣 (Yuxin Wu), 孙剑, 屠卓文, 库布里克, 康德, 张涛, 晓君, 朱松纯 (Zhu Song-Chun), 李飞飞 (Fei-Fei Li), 杨立昆, 杨立昆 (Yann LeCun), 沈少爷, 涂老师 (Professor Tu), 王小龙 (Wang Xiaolong), 理查德·柯朗, 谢赛宁, 赵婷, 马丁·斯科塞斯, 马毅, 马毅 (Ma Yi)

公司/机构 (31): Adobe, Amy Labs, Autodesk, Bank of America (BOA), Berkeley, Build.ai, DeepMind, FAIR, FAIR (Facebook AI Research), Google, Google Chat, Google Research, Mastercard, Meta, Microsoft, Microsoft Research Asia, NEC Labs, NSF, NYU, Newlab AMI, OpenAI, Perplexity, Pika, Runway, SSI, Stability AI, Thinking Machines, UCSD, Visa, YouTube, xAI

论文/方法/数据集 (94): AISTATS, AlexNet, AlphaFold, Autoencoder, BERT, BMVC, C++, CLIP, COT (Chain of Thought), CPC, CVPR, Cambr, Cambr-S, Cambrian, Canbens, Computer Vision, Contrastive learning, ConvNeXt, DDPM, DSN, Deep Learning, Deeply Supervised Nets (DSN), DiT, DiT (Diffusion Transformers), Diffusion Model, Dyna, Eyes Wide Shut, Faster R-CNN, Flow Matching, Focal Loss, GAN (Generative Adversarial Network), GPT, GPT-3, Gaussian Splatting, Genie, HED, Holistic Edge Detection (HED), ICCV, Image Segmentation, ImageNet, ImageNet Challenge, JAX, JEPA (Joint Embedding Predictive Architecture), Kernel Method, LDM, LLM, LLM (Large Language Model), Language Model, Large Language Models, Large Language Models (LLM), LeNet, MAE, MAE (Masked Autoencoders), Marr Prize, Mask R-CNN, Memory Bank, Mixture of Experts, Mixture of Experts (MoE), MoCo, MoCo (Momentum Contrast), Moco, Model Predictive Control (MPC), NeRF (Neural Radiance Fields), NeurIPS, Neural Architecture Search (NAS), Neural Network, PointContrast, Pre-training, Pretext task, PyTorch, R-CNN, RE, RE (Representation Engineering), REPA, Reinforcement Learning, Reinforcement Learning (RL), Representation Learning, ResNeXt, ResNet, Scaling Law, Self-attention, Self-supervised learning, Sora, The Bitter Lesson, Thinking Space, Transformer, U-Net, VAE (Variational Autoencoder), VISTAR, ViT, ViT (Vision Transformer), Video Diffusion, World Model, World Models

Takeaways

谢赛宁的成长经历和学术选择展现了追随个人兴趣和直觉的重要性，即使这与传统“成功”路径不同。
童年时期丰富的阅读环境和互联网的早期接触，培养了他强烈的求知欲和自我表达的渴望。
在学术和研究决策中，导师和个人连接的重要性往往超越了机构排名。
他对计算机视觉的热情源于对人类感知世界方式的深刻理解和个人连接。
他坚信要主动出击，追求自己真正想做的事情，即使这意味着逆流而上或面对最初的拒绝。
他认为竞争应促进创新而非过度内耗，并强调了协作和开放心态的价值。
他提出“如果你不做这件事情，这件事情在这个世界上永远不会发生”的观点，强调了个体行动的独特价值和责任。
优秀的导师不仅能提供机会,更重要的是言传身教,亲力亲为地指导学生做研究。
科研的道路并非一帆风顺,一时的挫折(如论文被拒)不代表工作的价值,真正有影响力的工作经得起时间的检验。
博士期间进行多次、多样化的实习,有助于拓宽视野、探索不同方向,即使不是每次实习都有成果,过程本身也很有价值。
与顶尖人才(如与何恺明)合作具有「现实扭曲力场」般的魔力,能将看似普通的想法升华为极具影响力的工作。
相比追逐短暂的热门方向,专注于「表征学习」这类永恒且根本性的问题,是更具可持续性的科研策略。
科研不是线性的,充满了不确定性和灵感迸发的瞬间,不应只关注某个时间点的成败,而应看重长期的积累和积分效应。
职业选择应优先考虑学术环境和长期发展潜力，而非短期物质回报。
研究的真正意义在于促进理解、分享知识，并提升人类整体智能，而非追求表面的“影响力”。
学术界是一个由人际关系和共同兴趣构成的有机体，有效的合作和相互启发是推动科学进步的关键。
顶尖研究者往往具备超前的远见，能够预见并布局未来的研究方向，如Yann LeCun在数据科学领域的布局。
定义正确的问题比解决问题本身更重要，如李飞飞通过ImageNet定义了图像分类的挑战，为深度学习提供了平台。
自监督学习是解决传统监督学习局限性的关键，它通过代理任务让模型从无标签数据中学习常识，从而获得更强大的表征能力。
顶尖研究者具备极致的专注力,能将全部心智资源投入到单一问题上。
真正的研究突破是「求索」而非「顿悟」的结果,它源于漫长、非线性的探索过程,而非最初的灵感。
研究过程如同「随机梯度下降」,关键在于找到能指引方向的「信号」(梯度),而非执着于初始目标。
研究的影响力是指数级的,一篇顶级的「代表作」远胜于无数平庸的论文,因此应优化生涯作品的「最大值」。
强大的基准(Baseline)和工程脚手架是研究上限的决定因素,在弱基准上做的提升可能是虚假的。
要将所有实验结果(包括负面结果)都视为宝贵的信号,并通过「预测-验证」的循环来系统性地推进认知。
顶尖的「研究品味」是一种哲学追求,要求研究者超越表面的指标和形式,洞察问题背后的本质,如同《金刚经》所言「见诸相非相」。
好的研究如同拍电影,是一个充满创造性的故事叙述过程,其核心在于关键时刻做出的「选择」(decisions),而非简单的线性推进。
突破性创新往往源于对主流共识的质疑。例如,ConvNeXt挑战了self-attention的必要性,DiT则颠覆了diffusion模型必须使用U-Net的传统。
研究者应培养「反脆弱」的心态,将论文被拒等挫折视为学习和成长的机会,使自己在不确定性中受益而非受损。
优雅和简洁是衡量研究价值的重要标准。一个简单、可扩展且高效的方案(如DiT的架构)本质上优于一个复杂臃肿的系统。
真正的研究自由度来自于自下而上(bottom-up)的探索,而非自上而下(top-down)的规划。过多的「对齐会议」可能会扼杀创新。
北美学术界的科研经费长期停滞，迫使研究者必须具备创业精神，主动寻找和整合各种资源才能推进前沿研究。
真正的通用人工智能（AGI）必须能够与物理世界进行交互，这要求AI具备强大的视觉理解能力，而不仅仅是处理虚拟的文本信息。纯语言模型在这方面存在根本局限。
电影理论，如毕赣的「长镜头」和贾樟柯的「时空拓展」，可以为视频理解和世界模型的研究提供深刻的哲学启发。
语言模型的训练数据并非真正的无监督数据，而是人类文明长期积累和高度结构化的知识结晶，其训练过程更像是一种「强监督学习」。
语言的本质是交流工具，而非思考工具，其符号化的特性在压缩信息以利于交流的同时，也丢失了大量关于物理世界的连续、高维信息。
未来AI的发展方向，是从处理离散符号的语言模型，走向能够理解连续、高维、嘈杂信号的视觉和物理世界模型，最终构建能够预测世界变化的「世界模型」。
构建强大的’世界模型’是通往通用人工智能的关键路径，其核心在于学习世界的底层表征，而非仅仅依赖语言。
高维度表征是现代AI的基石，不应畏惧其复杂性，它使得解决更复杂的问题成为可能。
语言模型（LLM）和视频生成模型等当前热门技术，都只是通往世界模型过程中的不同阶段或组件。未来LLM的角色可能更像是一个’接口’，而非智能本身。
语言和像素都是为人类感知设计的’接口’，真正的机器智能需要超越这些接口，学习一个更根本、更抽象的世界表征。
一个真正的世界模型应该具备预测能力，从而可以在内部进行规划（planning）和推理（reasoning），这使得智能体能够预见行为的后果，实现更高级别的可控性和安全性。
世界模型与语言模型在Scaling Law上存在本质差异，世界模型可能更注重理解和过滤而非参数规模。
人类大脑处理高带宽感官信息并转化为低带宽行为模式的机制，为世界模型提供了重要的启发，即高效的过滤系统是关键。
世界模型面临的最大挑战是获取和处理海量的真实世界数据，尤其是视频和多模态数据，且存在数据爬取和版权等法律伦理问题。
AI眼镜（个人助理）和机器人是世界模型的两个重要应用方向，它们需要对物理世界有深刻理解，而非仅仅是语言交互。
嘉宾选择创业是为了在现有学术界和大型科技公司之外，寻找一个能自由定义问题、进行前沿研究并推动世界模型发展的平台。
当前AI领域的“军备竞赛”和产品驱动模式，导致资源过度集中于短期商业目标和基准榜单，挤压了对世界模型等基础性、长期性研究的投入。
存在一个被硅谷LLM叙事逻辑忽视的“隐形世界”，即物理世界中大量未被解决的真实问题，这代表着世界模型巨大的市场潜力。
嘉宾的公司致力于构建一个通用的世界模型，并以研究突破为核心产品，吸引有使命感的年轻研究者共同探索AI的下一个范式。
张晓军与Yann LeCun联合创办的新AI公司旨在成为一个“反向OpenAI”, 通过合作伙伴联盟而非抓取公共互联网来构建世界模型。
公司的核心使命之一是为学术界的顶尖青年才俊搭建一个平台, 让他们能摆脱学术体制的束缚, 充分施展才华。
公司的理念是“世界模型需要世界”(World model needs the world), 体现了其去中心化、全球协作的模式, 初期即在巴黎、纽约、蒙特利尔和新加坡设立办公室。
Yann LeCun不仅是研究领袖, 更是一个有原则、多才多艺的人, 他的诚信和远见是吸引张晓军加入的关键。
张晓军认为, 真正的AI创新需要勇气去探索非主流、反直觉的道路, 并将自己的公司定位为挑战现有范式的“underdog”。
创业与滑雪类似, 都需要精妙的平衡感和直面未知的勇气, 敢于“将肩膀朝向山下”。
团队招募的核心标准是寻找对解决问题抱有极致热情和执着的人, 这种特质比单纯的履历更重要。
AI创业应着眼于解决宏大问题，而非局限于小范围改进，以实现更大的突破。
真正的AI智能需要具备世界理解、预测和规划能力，而不仅仅是语言处理。
人类智能并非独一无二，AI发展应以谦逊的态度追求类人智能，并认识到动物智能的复杂性。
开发能够执行现实世界任务（如家务）的AI机器人，是比编写代码或探索太空更基础的挑战。
研究过程充满挫折，但通过人际连接和灵感可以克服困难，并最终实现突破。
AI的发展需要超越理论研究，深入现实世界，理解并解决实际问题。
生成式AI模型的成功主要依赖于高质量的数据整理和对齐，而非仅仅是模型架构的创新。
人际间的真诚交流和沟通是核心价值，它贯穿于个人成长、研究和创业的各个方面。