张小珺商业访谈录

时长: 156 分钟 · ▶ 观看视频

嘉宾: 谢晨 (Steve) · 光轮智能创始人兼CEO

Switch → English

章节 (33)

  • 00:00 · 节目预告与开场
    • 主持人介绍本期主题为数据产业在具身智能时代的演进,并引出嘉宾谢晨。
  • 01:07 · 嘉宾自我介绍与职业路径
    • 谢晨分享其从北大物理到哥大金融,再到硅谷科技公司(Jet.com, Cruise, Nvidia, 蔚来)的跨界经历。
  • 04:47 · 寻找个人天赋与优势
    • 谢晨坦言自己物理天赋不足,通过不断试错寻找能产生最大价值的领域,最终锁定科技与产品。
  • 07:49 · 早期的创业尝试
    • 分享在读博期间为爱犬开发社交App的创业经历,意识到商业模式的重要性。
  • 12:14 · 为何深耕自动驾驶与机器人仿真
    • 讲述在Cruise、Nvidia和蔚来的经历,认识到仿真不仅是加速器,更是具身智能的先决条件。
  • 16:27 · 仿真的本质:时间机器与数据引擎
    • 解释仿真如何从早期的视觉展示工具,演变为真正能为算法提供有效训练数据的核心引擎。
  • 20:10 · AI数据发展的四个阶段
    • 将AI数据发展划分为ImageNet时代、Scale AI流水线时代、大模型RLHF时代以及具身智能仿真时代。
  • 27:21 · 数据标注的演进与合成数据
    • 探讨传统数据标注在具身智能领域的局限性,指出合成数据和仿真环境是解决数据荒的关键。
  • 34:41 · Zero-shot(零样本)泛化能力
    • 强调Zero-shot能力是衡量下一代机器人模型是否具备通用智能的核心指标。
  • 40:16 · 大模型与VLA(视觉-语言-动作)模型的关系
    • 分析云端世界模型(大模型)与端侧机器人大脑(VLA)的协同与分工。
  • 48:27 · 未来产业格局:大脑公司与本体公司
    • 预测未来机器人产业将分化为提供通用大脑的公司和提供硬件本体的公司,并探讨特斯拉的数据闭环优势。
  • 50:00 · 具身智能的数据架构
    • 探讨为机器人收集真实世界数据的挑战以及对多层数据架构的需求。
  • 52:15 · 数据公司的演变
    • 数据公司如何从提供静态数据集转向与AI模型开发者建立共生伙伴关系。
  • 56:20 · LLMs 与机器人的数据需求对比
    • 比较 LLMs(后训练)与机器人(预训练和物理接地)的数据瓶颈。
  • 58:50 · 评估与影子模式的重要性
    • 为什么自动驾驶中像“影子模式”这样的免费评估机制至关重要,但在机器人领域却缺失。
  • 1:02:55 · 数字智能体与物理机器人对比
    • 比较软件智能体与物理具身机器人在数据和环境方面的需求。
  • 1:06:55 · AI数据行业的三个阶段
    • 追溯从 ImageNet 到自动驾驶数据,最后到 LLMs 的 RLHF 的演变过程。
  • 1:14:45 · 仿真的必要性
    • 论证仿真不是可选项,而是扩展机器人数据和评估的严格必需品。
  • 1:20:30 · 真实数据与仿真阵营
    • 分析机器人行业从完全依赖真实数据到拥抱仿真的转变。
  • 1:31:00 · 机器人领域 Waymo 与 Tesla 的方法对比
    • 比较未来机器人领域中特定场景方法(Waymo)与通用大脑方法(Tesla)。
  • 1:40:00 · 自动驾驶与具身智能
    • 比较 Tesla 和 Waymo 等自动驾驶公司的数据方法与具身智能面临的挑战。
  • 1:41:40 · 具身智能的数据金字塔
    • 介绍“数据金字塔”概念,包括真实机器人数据、仿真数据和人类/互联网数据。
  • 1:44:30 · 具身智能的缩放定律
    • 探讨 GROOT 和 UMI 等近期项目如何证明缩放定律适用于具身智能数据。
  • 1:50:30 · 评估不同数据类型的价值
    • 分析为什么真实机器人数据目前被高估,而仿真和人类第一人称数据被低估。
  • 1:55:30 · 数据成本与数据工厂
    • 探讨不同数据类型的定价,以及从人工数据标注向自动化“数据引擎”的演进。
  • 2:02:50 · 构建数据引擎
    • 详细说明数据引擎的内部工作原理,强调仿真和真实世界评估的关键作用。
  • 2:16:20 · 竞争格局
    • 预测行业格局:大模型公司将主导“大脑”,而机器人公司将专注于“身体”。
  • 2:28:50 · 定义新的 AI 范式
    • 阐明物理 AI、空间智能和世界模型之间的区别。
  • 2:30:00 · 评测瓶颈
    • 嘉宾认为评测是目前 AGI 发展最关键的瓶颈。
  • 2:30:45 · LLM 评测的挑战
    • 讨论了评测大语言模型为何需要能力越来越强的人类来提供反馈。
  • 2:31:30 · 数据问题的未来
    • 嘉宾预测,随着 AI 转向自我学习,数据问题最终将变得无关紧要。
  • 2:32:45 · 仿真与数据工厂的终结
    • 对话探讨了仿真环境将如何取代传统的数据工厂来进行 AI 训练。
  • 2:34:59 · 以 Einstein 的思想实验作为 AI 的类比
    • 嘉宾将未来的 AI 仿真训练比作 Einstein 的思想实验。

数据 (15)

时间 事实 数值 背景
02:15 加入 Cruise 2018 谢晨加入硅谷自动驾驶公司Cruise,首次接触并验证自动驾驶仿真技术。
02:53 加入 Nvidia 2021 加入英伟达负责自动驾驶仿真,发现中国车企是其最大客户,促使他决定回国。
04:34 创立 Light Wheel AI 2023 与联合创始人共同创立光轮智能,致力于用合成数据加速机器人产业。
05:16 在北大的物理成绩排名 第110名 谢晨提到自己在北大物理系时成绩排名靠后,意识到自己在物理方面缺乏顶尖天赋。
08:47 金融危机 2008 在哥大交换期间亲历金融危机,这段经历促使他思考不同的人生路径。
10:11 为研究下载的 App 数量 500+ 为了开发宠物社交App,他下载并研究了500多个应用程序的UI/UX设计。
11:11 首次创业持续时间 3年 他的第一个宠物App创业项目持续了大约三年,直到博士毕业前关闭。
50:04 机器人数量 Millions 目前世界上并没有部署数以百万计的机器人来收集数据。
1:01:01 数据准备度得分 60 vs 0.6 LLMs 的数据准备度可能在60分,而机器人数据还不到0.6分。
1:04:18 RLHF 的出现 2021-2022 RLHF 在大模型中变得突出的时间段。
1:44:55 使用的 UMI 夹爪数据量 270,000 hours 作为缩放定律开始在具身智能中发挥作用的证据被引用。
1:57:22 具身智能数据的成本范围 Tens to thousands of RMB per hour 解释数据定价因质量、复杂性以及是用于预训练还是评估而差异巨大。
2:09:59 嘉宾工程团队的规模 100+ people 强调构建强大的数据引擎和仿真平台所需的工程投入。
2:19:19 科技巨头转向具身智能的时间表 3 to 6 months ago 指出主要 AI 公司何时开始认真将资源分配给具身智能。
2:31:37 数据问题变得无关紧要的时间范围 15 到 20 年 嘉宾估计,可能需要 15 到 20 年的时间,数据问题对 AI 来说才会变得完全不重要。

研究观点 & 预测 (14)

  • [04:20] 仿真不仅是机器人技术的加速器,更是其先决条件。
    • 证据: 基于他从自动驾驶转型到机器人领域的经验,他意识到如果没有仿真,机器人产业将因为缺乏真实世界数据而无法实现规模化。
  • [18:13] 通过仿真获取合成数据是实现机器人规模化的唯一可行路径。
    • 证据: 机器人的真实世界数据收集速度太慢,且缺乏训练鲁棒模型所必需的长尾场景(corner cases)以及从失败到成功的轨迹数据。
  • [33:08] 最有效的训练数据是‘先失败再成功’的数据。
    • 证据: 模型不仅能从完美的演示中学习,更能从观察犯错并纠正的过程中学到最多,这种数据在仿真中很容易生成,但在现实中却很难捕捉。
  • [34:41] Zero-shot(零样本)能力是衡量下一代机器人模型的核心指标。
    • 证据: 如果一个模型不能泛化到未见过的任务或环境中(Zero-shot),它就不是真正的智能,也无法在不同的机器人形态中实现规模化。
  • [51:20] Tesla 的数据闭环将不适用于更广泛的机器人行业。
    • 证据: 大脑(模型)和身体(硬件)将会分离,由不同的公司分别专注于其中一项。
  • [1:14:45] 仿真对机器人来说是严格必需的。
    • 证据: 对于通用机器人的评估和训练需求来说,真实世界的数据收集过于昂贵且无法扩展。
  • [1:42:30] 如果没有仿真和人类数据,具身智能就无法实现通用智能。
    • 证据: 真实机器人数据太难扩展;仿真和人类数据是弥合差距所必需的。
  • [1:51:50] 人类第一人称视角数据目前被低估,但对教导机器人至关重要。
    • 证据: 机器人需要从人类行为中学习,而第一人称视频(如来自智能眼镜)提供了最好的跨具身学习信号。
  • [2:02:00] 数据公司必须从“数据工厂”演变为“数据引擎”。
    • 证据: 人工标注是不够的;未来需要整合仿真和真实世界测试的自动化、反馈驱动系统。
  • [2:22:30] 大模型公司(OpenAI、DeepMind)很可能会在具身智能的“大脑”竞赛中获胜。
    • 证据: 他们拥有资源、人才和扩展基础设施,而硬件公司可能会专注于构建最好的物理身体。
  • [2:30:04] 评测是目前 AGI 最关键的问题。
    • 证据: 目前的预训练和 Scaling Laws 已经确立,使得评测成为衡量智能提升的真正瓶颈。
  • [2:31:30] 随着 AI 转向自我学习,数据问题最终将变得不重要。
    • 证据: 与能力极强的人类相似,高级 AI 将停止从外部来源学习,转而通过与自己博弈来生成新知识。
  • [2:32:31] 数据工厂将被淘汰。
    • 证据: 它们将被系统驱动、以评测为中心的环境所取代,这些环境通过反馈帮助模型发现问题并自我提升。
  • [2:34:00] 未来的 AI 将严重依赖仿真环境中的强化学习 (RL)。
    • 证据: 模型将通过与仿真环境交互来修炼“内功”,而不是仅仅消耗静态数据。

关键概念 (17)

  • [16:27] Simulation (仿真)
    • 在虚拟环境中构建物理世界的数字孪生,用于生成合成数据以训练和测试AI算法,特别是自动驾驶和机器人。
  • [27:21] Synthetic Data (合成数据)
    • 由计算机算法(如仿真引擎或生成式AI)人工生成的数据,而非从真实世界中收集的数据,用于解决真实数据稀缺和长尾场景问题。
  • [34:41] Zero-shot Generalization (零样本泛化)
    • 机器学习模型在没有见过特定任务或场景的训练样本的情况下,依然能够正确处理该任务的能力。
  • [39:13] VLA (Vision-Language-Action) Models
    • 视觉-语言-动作模型,一种多模态模型,能够理解视觉输入和语言指令,并直接输出机器人的物理动作控制指令。
  • [40:16] World Models (世界模型)
    • 能够理解和预测物理世界运行规律的AI模型,通常部署在云端,为端侧机器人提供常识和高级规划能力。
  • [50:00] Embodied AI (具身智能)
    • 通过机器人身体与物理世界互动的 AI 系统。
  • [58:50] Shadow Mode (影子模式)
    • 在真实系统的后台运行 AI 模型,以根据人类行为评估其决策,而不实际控制系统。
  • [1:14:45] Simulation (仿真)
    • 创建虚拟环境,以便在真实世界部署之前安全、低成本地训练和评估机器人。
  • [1:41:40] Data Pyramid (数据金字塔)
    • 具身智能数据的框架,包含三层:真实机器人数据(顶层,质量高但难以扩展)、仿真数据(中层,可扩展但存在现实差距)和人类/互联网数据(底层,规模庞大但需要跨具身转移)。
  • [1:43:45] Sim-to-Real (仿真到现实)
    • 在仿真环境中训练 AI 模型,然后将这些学到的能力转移到真实的物理世界中成功运行的过程。
  • [2:02:00] Data Engine (数据引擎)
    • 一个用于生成、评估和优化数据的自动化闭环系统,与严重依赖人工标注的传统“数据工厂”形成对比。
  • [2:28:50] Physical AI (物理世界AI)
    • 旨在理解物理世界、与之交互并在其中运行的人工智能系统,包括自动驾驶汽车和机器人系统。
  • [2:30:06] 评测 (Evaluation)
    • 评估和衡量 AI 模型能力的过程,随着模型变得越来越聪明,这一过程也变得越来越困难。
  • [2:32:50] 仿真 (Simulation)
    • 创建虚拟环境,让 AI 可以在其中测试假设、从试错中学习并生成自己的数据。
  • [2:33:06] Data Factory
    • 人类手动标注和生成数据以训练 AI 模型的大规模作业。
  • [2:34:05] RL (Reinforcement Learning)
    • 一种机器学习范式,智能体通过在环境中执行动作以最大化奖励来学习做决策。
  • [2:35:22] 思想实验 (Thought Experiment)
    • 像 Einstein 这样的科学家用来探索物理定律的心理模拟,类似于 AI 将如何使用仿真环境进行学习。

提及人物 (8)

  • Elon Musk — 在片头预告中被引用,提到人类可能生活在仿真世界中。
  • Warren Buffett — 被用作例子,说明很早就发现自己天赋和热爱所在的人是幸运的。
  • Lang Lang — 被用作例子,说明很早就发现自己钢琴天赋的人。
  • Jensen Huang — 英伟达CEO,谢晨提到曾与他交流,了解到英伟达对机器人仿真的高度重视。
  • Fei-Fei Li — 斯坦福大学教授,因创建ImageNet和近期在具身智能评测集(Behavior)的工作被提及。
  • Fei-Fei Li (李飞飞) — 因其在 AI 行为挑战和数据扩展方面的工作而被提及。
  • Jim Fan — 被提及为 Nvidia 推动其具身智能和仿真工作的关键人物。
  • Albert Einstein — 作为一个类比;他的思想实验被比作高级 AI 所需的仿真环境。

公司提及 (13)

Jet.com · Cruise · Waymo · Nvidia · Nio (蔚来) · Scale AI · OpenAI · DeepMind · Tesla · xAI · Meta · Zhiyuan (智元) · Yushu (宇树)

引用 (11)

其实最有效的数据是先失败再成功的数据。 — 谢晨 @ 00:52

仿真是一个玩具,或者说它更多的是给投资人展示的一个Demo。 — 谢晨 @ 12:38

他特别相信通过合成数据、通过仿真,这个是唯一的路径来真正的让机器人将来可以部署到世界各地。 — 谢晨 @ 18:13

数据对于智能,就有点类似于咱们人去获取知识来不断的去自我提升。 — 谢晨 @ 20:54

如果 LLMs 能打60分,机器人数据连0.6分都不到。 — Guest @ 1:01:01

仿真对机器人来说是必需品。没有它,绝对行不通。 — Guest @ 1:14:45

如果没有数据金字塔,如果下面没有仿真和人类数据,我认为具身智能的通用智能就不会涌现。 — Male Guest @ 1:42:30

理想的状态是人们就是喜欢戴这些眼镜,而不是人们为了给机器人收集数据才戴这些眼镜。 — Male Guest @ 1:52:15

我们更像是一个数据引擎……数据工厂有点像流水线,缺乏技术和系统,而且不是反馈驱动的。 — Male Guest @ 2:02:00

人可能越优秀,越希望去提升自己,他只不会变成从向别人学习,变成与自己去对标。 — Guest @ 2:31:52

就跟马斯克说的,咱们人可能就在一个仿真里头。 — Guest @ 2:32:47

经历 & 个人故事 (3)

  • [01:07] 谢晨本科就读于北大物理系,发现自己缺乏物理天赋后,前往哥伦比亚大学攻读量化金融博士。期间亲历金融危机,意识到金融行业的局限性,决定转向科技行业。毕业后加入Jet.com做算法,后进入自动驾驶领域,先后在Cruise、Nvidia和蔚来负责仿真技术,最终在2023年创立光轮智能,专注于具身智能的合成数据。
  • [07:49] 在哥大读博期间,谢晨养了一只名叫“土豆”的狗。为了给狗友提供交流平台,他自学编程和设计,开发了一款宠物社交App。虽然App获得了一定用户,但因为缺乏清晰的商业模式,最终在毕业前放弃。这段经历让他认识到商业模式和技术壁垒的重要性。
  • [1:38:45] 嘉宾回忆起加入 Cruise 时,完全专注于让自动驾驶在旧金山跑通,然后再扩展到其他城市,这说明了场景优先的方法。

工具与模型 (10)

  • ImageNet: 李飞飞团队创建的大规模视觉数据库,开启了深度学习在计算机视觉领域的突破,代表了静态数据标注的早期阶段。
  • GPT (Generative Pre-trained Transformer): 大语言模型,代表了通过海量互联网文本数据预训练和人类反馈强化学习(RLHF)实现智能涌现的阶段。
  • VLA (Vision-Language-Action): 具身智能领域的核心模型架构,将视觉感知、语言理解和物理动作输出结合在一起,作为机器人的“小脑”。
  • ImageNet: 一个用于计算机视觉的基础静态数据集,开启了 AI 数据行业的第一波浪潮。
  • Optimus: Tesla 的人形机器人,被用作具身智能硬件的例子。
  • VLA (Vision-Language-Action): 一种用于机器人的模型架构,它整合了视觉和语言输入以输出物理动作。
  • GROOT: Nvidia 开发的用于人形机器人学习的通用基础模型。
  • UMI: 一个数据收集框架(通用操作接口),使用带有夹爪的人类演示来训练机器人。
  • GPT-2: 作为具身智能发展当前阶段的类比被提及——在大规模扩展之前找到正确的“配方”。
  • 大语言模型 (Large Language Models): 在海量文本数据上训练的 AI 模型,目前在评测和高质量人类反馈方面面临瓶颈。

主题

自动驾驶仿真 · 具身智能 (Embodied AI) · 合成数据 (Synthetic Data) · 数据标注的演进 · Zero-shot 泛化 · 大模型与机器人结合 · 科技创业路径 · 具身智能 · 数据扩展 · 仿真 · RLHF · 自动驾驶 · AI数据行业 · 具身智能 · 数据生成与扩展 · 仿真与 Sim-to-Real · 人在回路数据 · AI 行业格局 · AGI (通用人工智能) · AI 评测瓶颈 · 仿真环境 · 强化学习 (RL) · 自我学习 AI · 数据标注的未来

要点

  • 在具身智能时代,真实世界的数据收集速度远落后于模型对数据的需求,合成数据和仿真环境是解决数据瓶颈的唯一可行路径。
  • 最有效的训练数据不仅包含成功的演示,更需要包含从失败中纠正的过程(先失败再成功的数据),这在仿真环境中更容易生成。
  • 下一代机器人模型的核心竞争力在于Zero-shot(零样本)泛化能力,即在未见过的场景中执行未见过的任务。
  • 未来的机器人产业格局可能会分化为提供通用“大脑/小脑”的软件公司和专注于特定形态“本体”的硬件公司。
  • 机器人的数据架构很可能会将“大脑”(由大模型公司训练)与“身体”(由硬件公司制造)分离开来。
  • 机器人目前缺乏推动 LLMs 和自动驾驶取得突破的海量预训练数据和免费评估机制(如影子模式)。
  • 为了解决数据和评估瓶颈,仿真不仅仅是一个可选项,而是未来机器人领域严格的必需品。
  • “数据金字塔”(真实、仿真、人类数据)对于扩展具身智能至关重要。
  • 仿真是评估和训练机器人模型的核心循环。
  • 人类第一人称数据目前被低估,但对跨具身学习至关重要。
  • 行业可能会发生分化:科技巨头将构建“大脑”(基础模型),而机器人公司将专注于“身体”(硬件)。
  • 评测是目前 AGI 发展中最大的瓶颈,因为更聪明的模型需要更聪明的人类来评估它们。
  • 随着 AI 模型具备自我学习能力,对人类生成数据(数据工厂)的依赖将会减少。
  • 未来的 AI 训练将严重依赖复杂仿真环境中的强化学习,类似于 Einstein 的思想实验。