AI 研究员 Gao Jiyang 访谈
时长: 184 分钟 · ▶ 观看视频
嘉宾: Gao Jiyang · AI 研究员,前 Waymo 工程师,Momenta 联合创始人
章节 (24)
- 02:10 · Chapter 1: 冲刺型小孩
- Gao 讲述了他的早期教育经历、他的战略性学习方法,以及他是如何通过物理奥林匹克竞赛考入清华大学的。
- 12:00 · Chapter 2: 学习曾国藩
- Gao 谈论了他向 AI 领域的转型、在 SenseTime 的实习经历,以及从历史人物 Zeng Guofan 身上汲取领导力灵感。
- 25:30 · Chapter 3: 提高顶会命中概率
- Gao 解释了他在攻读博士期间在 AI 顶会发表论文的系统性策略,以及如何评估行业机会。
- 33:40 · Chapter 4: Waymo是没有创始人的
- Gao 回顾了他在 Waymo 的时光、自动驾驶架构从基于机器人技术向 AI 原生的转变,以及 Waymo 面临的组织挑战。
- 50:00 · 在 Waymo 工作及离职的决定
- Jida 讲述了他在 Waymo 的时光,学习工程系统,以及为什么他决定离开去一个更以产品为导向的环境。
- 52:20 · 第5章:Momenta 是极端的反面
- Jida 解释了他选择加入 Momenta 而不是 Huawei 的原因,强调了 Momenta 以结果为导向的文化和量产战略。
- 62:20 · 第6章:鲶鱼效应
- Jida 描述了他在推动 Momenta 为 SAIC 进行量产交付中的角色,以及紧张快节奏的工作文化。
- 69:20 · 第7章:从一份糟糕的 BP 开始
- Jida 回顾了他在30岁时决定创办一家具身智能公司的决定,最初在融资方面的挣扎,以及获得天使投资的过程。
- 75:20 · 第8章:在硬件和供应链中挣扎
- Jida 解释了为什么具身智能公司必须构建自己的硬件,以及从零开始摸索供应链的挑战。
- 100:00 · 硬件与供应链重点
- 讨论公司早期对硬件、供应链的关注,以及决定制造带躯干的轮式机器人的原因。
- 103:00 · 瞄准开发者市场
- 解释首先瞄准开发者市场的战略,将开发者分为学术、企业和生产力三个层级。
- 106:30 · AI 与硬件工程的对比
- 对比 AI 软件对人才密度的关注与硬件工程严格的流程驱动要求。
- 109:30 · 数据配方与智能战略
- 概述向数据和智能的转变,强调端到端模型和真实世界数据的重要性。
- 117:00 · 真实机器人数据的成本
- 分析获取真实机器人数据与模拟数据在资金和时间上的成本差异。
- 126:00 · 机器人大脑架构
- 详细介绍双系统架构,使用 VLA 模型进行快速动作,使用 VLM 进行慢速推理。
- 130:00 · 寻找合适的场景
- 确定具身智能的理想商业场景,如料箱拣选和柔性装配。
- 140:00 · 初创公司与科技巨头
- 分析机器人领域敏捷的初创公司与资源丰富的科技巨头之间的竞争格局。
- 150:00 · Company Culture and Pragmatic Innovation
- Discussing the importance of creating real customer value through pragmatic innovation.
- 151:23 · Hua Zhe’s Departure
- Explaining co-founder Hua Zhe’s departure to pursue 2C applications and the company’s support for him.
- 154:00 · The Embodied AI Value Chain
- Analyzing the transmission cycles of algorithms versus hardware and supply chains.
- 159:00 · Technical Vision
- Envisioning robots that learn like human employees through demonstration and self-practice.
- 164:30 · Funding and Valuation
- Detailing the recent funding round and the company’s 30x valuation growth.
- 170:09 · Learning from Peers
- Sharing respect and learnings from peer companies like Unitree, Physical Intelligence, and Zhiyuan.
- 180:00 · Personal Preferences
- The guest shares his favorite food, movies, music, and books.
数据 (23)
| 时间 | 事实 | 数值 | 背景 |
|---|---|---|---|
| 01:55 | Gao 的出生年份 | 1992 | 主持人提到他看起来比较成熟,但实际上出生于 1992 年。 |
| 06:23 | 全国物理奥林匹克竞赛 | November 2010 | Gao 在厦门参加了全国比赛。 |
| 12:34 | 开始 AI 实习 | Late 2014 / Early 2015 | Gao 开始在 SenseTime 实习,并训练了他的第一个神经网络。 |
| 34:02 | Waymo 的创立时期 | 2008/2009 | Gao 指出,Waymo 的自动驾驶研发可以追溯到 DARPA 挑战赛时期。 |
| 54:26 | 加入 Waymo | January 2019 | Jida 在 2019 年初加入了 Waymo。 |
| 54:29 | 决定离开 Waymo | H2 2020 | Jida 觉得自己已经学到了足够多的 AD system 知识,希望更接近产品和商业。 |
| 59:37 | Momenta 的战略转变 | 2018 | Momenta 明确决定追求量产自动驾驶,以为 Robotaxi 构建数据飞轮。 |
| 62:31 | Momenta 获得 SAIC 项目 | End of 2020 | Momenta 赢得了 SAIC 的智己(IM Motors)项目。 |
| 69:34 | 决定创业 | End of 2022 | Jida 满30岁,决定是时候追求他的创业抱负了。 |
| 70:39 | 从 Momenta 辞职 | May 2023 | Jida 正式离开 Momenta,创办自己的公司。 |
| 77:10 | 天使轮融资 | 30 million RMB | 从 IDG、Baidu Ventures 和 GSR Ventures 获得的首轮天使轮融资总额。 |
| 78:00 | Plus 轮融资 | 10-20 million RMB | 在天使轮之后不久进行的额外一轮融资。 |
| 100:38 | 第二轮融资 | Early 2024 | 完成第二轮融资,重点关注硬件和供应链。 |
| 102:38 | 形态决定 | March 2024 | 决定首款机器人采用轮式+躯干的形态。 |
| 117:56 | 数据获取与训练成本比例 | 1:5 to 1:10 | 在获取数据上每花费 1 美元,就要在模型训练上花费 5 到 10 美元。 |
| 119:28 | 每小时真实数据成本 | 200-250 RMB | 收集一小时真实机器人遥操作数据的预估成本。 |
| 120:07 | 通用 AI 的数据规模 | 100,000 hours | 相当于一个 18 岁人类生活经验的交互数据量。 |
| 120:34 | 10万小时数据的成本 | 25 million RMB | 收集 100,000 小时真实机器人数据的预估财务成本。 |
| 154:53 | Hardware and supply chain transmission cycle | 12 to 18 months | The time it takes for hardware innovations to be replicated. |
| 155:59 | Algorithm transmission cycle | 2 to 3 months | The time it takes for algorithm innovations to be replicated due to open source and papers. |
| 160:39 | Number of developer customers | Over 150 | The number of global developer customers using Xinghai Tu’s products. |
| 166:05 | Valuation growth | 30x | The company’s valuation grew 30 times compared to January 2024. |
| 167:06 | Company size | Over 200 employees | The current size of the organization. |
研究观点 & 预测 (10)
- [16:46] 神经网络可以自动从数据中提取规则,取代手动编程。
- 证据: 在早期的 AI 实验中观察到,模型取代了复杂的 if-else 逻辑。
- [36:08] 在自动驾驶领域,端到端、数据驱动的 AI 架构将取代模块化、基于规则的机器人架构。
- 证据: 基于传统系统的性能瓶颈以及像 Tesla 这样的数据驱动模型的快速扩展。
- [38:07] 对于预测模型来说,将地图和轨迹表示为向量比将它们渲染为图像更高效。
- 证据: Waymo 的 VectorNet 模型的开发和成功证明了这一点。
- [61:15] 数据闭环对于自动驾驶至关重要。
- 证据: 要实现 Robotaxi,你需要海量数据,这只能通过在消费级汽车中部署量产 AD system 来获取。
- [74:06] 具身智能需要构建硬件。
- 证据: 为了在物理世界中构建数据闭环,AI 公司必须控制硬件(机器人)以有效地收集数据并执行动作。
- [101:20] 双足行走给操作任务增加了不必要的复杂性。
- 证据: “局部操作”问题(协调腿和手臂)仍未解决,这使得轮式底盘对于当前的 AI 能力来说更加实用。
- [116:00] 真实世界数据是必不可少的,因为从模拟到现实的差距仍然太大。
- 证据: 传统的基于图形的模拟难以准确建模复杂的物理交互,需要真实数据来保证可靠的性能。
- [126:50] 机器人大脑将采用双系统架构。
- 证据: 边缘计算的限制阻碍了高频运行大型推理模型,因此需要一个快速的 VLA 模型用于动作,以及一个慢速的 VLM 用于推理。
- [159:35] Robots will learn like human employees.
- 证据: Through a few demonstrations and self-practice, robots will be able to autonomously complete tasks.
- [154:25] Algorithm innovation cannot exist independently.
- 证据: It must be part of a full value chain including hardware, data, and infrastructure.
关键概念 (14)
- [16:46] 深度学习 / 神经网络
- 一种机器学习方法,能够自动从大型数据集中提取模式和规则,取代手动编写的 if-else 编程。
- [36:08] 端到端架构
- 一种系统设计,其中单个神经网络将原始输入直接映射到最终输出,避免了模块化、人工设计的中间步骤。
- [38:07] 向量表示 (VectorNet)
- 一种将高精地图和智能体轨迹表示为数学向量而不是渲染图像的方法,从而提高了计算效率和性能。
- [52:58] Engineering Mindset (工程师思维)
- 将复杂问题分解为更小、可衡量的子问题,编写代码,并逐层测试。
- [61:15] Data Flywheel (数据飞轮)
- 部署量产系统以收集真实世界数据,从而训练出更好的 AI 模型,进而改进产品。
- [74:06] Embodied AI (具身智能)
- 通过硬件(机器人)与物理世界交互以创建数据闭环的 AI 系统。
- [81:45] Customer-Centric (以客户为中心)
- Momenta 的核心价值观,意味着深入理解并解决客户的实际问题,而不是仅仅遵循死板的指示。
- [101:33] 智能定义本体 (Intelligence defines the body)
- 根据 AI 算法当前的能力和局限性来设计机器人硬件,而不是先制造硬件。
- [103:00] 开发者市场 (Developer Market)
- 机器人的初始目标市场,在触及最终消费者之前,重点关注研究人员、工程师和集成商。
- [116:00] Sim-to-Real Gap (仿真到现实的差距)
- 模拟环境与真实世界之间的差异,这使得转移学到的技能变得困难。
- [124:09] 数据配方 (Data Recipe)
- 用于训练具身智能模型的不同类型数据(真实、模拟、以人为中心)的战略组合和比例。
- [150:14] Pragmatic Innovation (务实创新)
- Focusing on creating real value for customers and calculating ROI, rather than just pursuing romantic or theoretical research.
- [154:25] Value Chain (价值链条)
- The full stack required for embodied AI, including hardware, supply chain, data, AI infra, and algorithms.
- [154:50] Transmission Cycle (传播周期)
- The time it takes for an innovation to be replicated or adopted by others in the industry.
提及人物 (23)
- Xiao Jun — 访谈的主持人。
- Gao Jiyang — 访谈嘉宾,AI 研究员和创业者。
- Zeng Guofan — Gao 研究的一位历史人物,旨在学习领导力、资源调动以及在挫折中实现目标。
- Tang Xiao’ou — 为 Gao 提供 SenseTime 实习机会的教授。
- Cao Xudong — Gao 在 SenseTime 的导师,指导了他早期的 AI 工作。
- Sun Chen — 帮助 Gao 获得 USC 研究职位的清华学长。
- Zhao Hang — Gao 在 Waymo 合作发表 VectorNet 论文的合作者。
- Elon Musk — 在提及 Tesla 自上而下、AI 驱动的自动驾驶战略时被提到。
- Chen Yilun — 与 Jida 交谈过的 Huawei 高管。
- Su Qing — 与 Jida 交谈过的 Huawei 高管。
- Sun Gang — Momenta 的高管。
- Ren Shaoqing — 前 Momenta 高管,他的离职促使了组织变革。
- Tianwei — Jida 的联合创始人。
- Yang Zeyi — Jida 的联合创始人及硬件/机械工程专家。
- Fei-Fei Li (李飞飞) — 作为 AI 领域顶尖学术开发者的例子被提及。
- Zhao Hang (赵航) — 领导 Xinhaitu (星海图) 的数据与智能团队。
- Wang He (王鹤) — 在计算机器人数据收集的每小时成本时被提及。
- Xu Huazhe (许华哲) — 在一个关于他离职的章节标题中被提及。
- Hua Zhe (华哲) — Co-founder who left Xinghai Tu to pursue 2C applications.
- Tian Fei (天飞) — Co-founder of Xinghai Tu.
- Zhao Hang (赵行) — Co-founder of Xinghai Tu, now leading the foundation model team.
- Cao Xudong (曹旭东) — CEO of Momenta.
- Shao Qing (少卿) — Former researcher at Momenta.
公司提及 (19)
SenseTime · Waymo · Tesla · Google · Momenta · Huawei · Pony.ai · WeRide · SAIC (上汽) · IDG · Baidu Ventures · GSR Ventures (金沙江) · Xinhaitu (星海图) · Ant Group (蚂蚁) · Apple · Xinghai Tu (星海图) · Unitree (宇树) · Physical Intelligence (PI) · Zhiyuan (智元)
引用 (10)
我觉得神经网络可以取代人类去发现数据中的规则。这太牛了。我必须做这个。 — Gao Jiyang @ 17:38
AI 的神奇之处在于它能够取代人类去总结规则。 — Gao Jiyang @ 33:18
Waymo 没有创始人……缺少了自上而下的推动力。 — Gao Jiyang @ 42:02
我觉得一个组织要成功,必须要有容错,但是得有一个人说我们错了,然后我们改。 — Jida @ 58:27
我们要做具身智能,必须得是整机加智能,不能只做智能。 — Jida @ 74:06
我比较喜欢面对真实,哪怕这个真相和真实是残酷的,我也要去面对它。 — Jida @ 76:05
智能定义本体。从智能的需求出发去看本体应该怎么做。 — Peng Siyuan @ 101:33
10万小时的数据意味着什么?其实一个人从生下来到18岁,和物理世界交互的总时长就是这个量级。 — Peng Siyuan @ 120:00
机器人这个事本身就不浪漫… 链条非常长,周期也很长。 — Gao Jiyang @ 161:16
理想主义不能变成空想。 — Gao Jiyang @ 166:34
经历 & 个人故事 (12)
- [02:32] Gao 描述自己在六年级之前只是个普通学生,直到他开始为考试“冲刺”,最终赢得了全国物理竞赛并考入清华大学。
- [12:34] 在大三时,他对自己的专业感到迷茫,于是去 SenseTime 实习,训练了他的第一个神经网络,并找到了对 AI 的热情。
- [25:30] 为了尽快毕业并进入工业界,Gao 系统地将 AI 研究论文分为三类,以最大化他在顶会发表论文的机会。
- [34:14] 在 Waymo,他分析了传统的代码库,意识到了将地图渲染为图像的局限性,并共同开发了 VectorNet 来解决这个问题。
- [50:00] Jida 曾在 Waymo 工作,在那里他学习了如何构建庞大的自动驾驶系统,并培养了工程师思维。
- [54:20] 由于在 Waymo 感觉脱离了产品和商业端,Jida 决定回国加入一家更接近商业化的公司。
- [55:40] 他加入了 Momenta,在一个高压、以结果为导向的环境中茁壮成长,最终领导了为一家主要 OEM 的量产交付。
- [69:20] 在满30岁时,Jida 从 Momenta 辞职,创办了自己的具身智能公司,在最初 BP 糟糕的情况下克服了融资挑战。
- [75:20] 意识到单靠软件是不够的,Jida 和他的团队不得不从零开始学习硬件和供应链管理,最终引入了一位硬件联合创始人。
- [106:48] 嘉宾回顾了从纯 AI 软件向具身智能的转变,认识到虽然 AI 依赖于“10倍工程师”,但硬件需要严格的、流程驱动的工程(EVT、DVT、PVT)以避免物理故障。
- [153:02] Founded the company with Tian Fei and Zhao Hang, and gradually brought in more partners to build a strong team.
- [180:00] Shares personal preferences, including a love for movies developed during college, and a taste for sci-fi, suspense, and history books.
工具与模型 (7)
- VectorNet: 一种图神经网络模型,将高精地图和智能体轨迹表示为向量,显著提高了自动驾驶中轨迹预测的效率和准确性。
- Transformer / Self-attention: 一种在 VectorNet 中使用的神经网络架构机制,用于有效地处理和关联不同的向量输入。
- GPT-1 / GPT-2 / GPT-3 / InstructGPT / ChatGPT: OpenAI 的语言模型,恢复了全球对 AI 潜力的信心,成为 Jida 决定创办 AI 公司的催化剂。
- R1: Xinhaitu (星海图) 的第一代机器人产品,具有轮式底盘和用于操作的躯干。
- VLA (Vision-Language-Action) Model: 一种将视觉和文本输入直接转化为机器人物理动作的模型,用于快速的反应式控制。
- VLM (Vision-Language Model): 一种更高级别的模型,在机器人的双系统架构中用于慢速的逻辑推理和任务分解。
- Foundation Models for Robotics: Enables robots to learn tasks through demonstration and self-practice, similar to human employees.
主题
早期教育与竞赛 · 向人工智能转型 · 学术研究策略 · 自动驾驶架构 · Waymo 与 Tesla 的方法对比 · 科技公司的组织架构 · 自动驾驶 · 具身智能 · 创业融资 · 硬件供应链 · 工程文化 · 数据闭环 · 具身智能 · 机器人硬件设计 · 数据收集与扩展 · 仿真到现实的差距 · 开发者市场战略 · 双系统 AI 架构 · 机器人领域的初创公司与科技巨头 · Embodied AI · Robotics Supply Chain · Startup Culture · Pragmatic Innovation · Algorithm vs Hardware Cycles
要点
- 战略性的“冲刺”和以目标为导向的规划可以加速学术和职业发展。
- AI 的核心价值在于用数据驱动的模式提取取代手动创建规则。
- 在自动驾驶领域,端到端的 AI 架构正在取代传统的模块化机器人系统。
- 在公司应对重大技术范式转变时,由创始人主导的强大自上而下的愿景至关重要。
- 一个成功的 AI 组织必须以结果为导向,并愿意迅速承认和纠正错误。
- 为了实现真正的自主性(Robotaxi 或机器人),公司必须部署量产系统以收集真实世界数据并构建数据飞轮。
- 在具身智能领域,单靠软件是不够的;公司必须构建并控制硬件(机器人)以有效地闭合数据循环。
- 从软件工程师转型为硬件创始人需要走出舒适区,并从头开始学习供应链管理。
- 机器人硬件的设计应由当前的 AI 能力决定(“智能定义本体”)。
- 由于模拟的局限性,真实世界数据虽然昂贵但必不可少。
- 100,000 小时的真实世界交互数据是实现通用机器人智能的预估门槛。
- 机器人技术需要高人才密度的 AI 工程与严格的、流程驱动的硬件制造相结合。
- 初创公司必须找到特定的、高容错度的商业场景,才能在与资源丰富的科技巨头的竞争中生存下来。
- In embodied AI, algorithm innovation is fast to replicate (2-3 months), while hardware and supply chain advantages take much longer (12-18 months) to build and defend.
- Pragmatic innovation and calculating ROI are crucial for survival and success in the robotics industry, which is inherently ‘unromantic’ due to its long and complex value chain.
- A successful AI robotics company must integrate the entire value chain: hardware, supply chain, data, AI infrastructure, and algorithms.