AI Talk: 对话 Li Xiang,探讨 AGI、VLA 与自动驾驶的未来
时长: 164 分钟 · ▶ 观看视频
嘉宾: Li Xiang · Li Auto 创始人
章节 (30)
- 00:00 · AI 作为信息工具与生产工具的对比
- Li Xiang 探讨了当前 AI 仅仅作为信息工具的局限性,以及其成为以行动为导向的生产工具的必要性。
- 11:40 · Li Auto 的进展与 DeepSeek 的影响
- 回顾过去的 130 天,Li 强调了 AI 模型的进步,特别赞赏了 DeepSeek 的开源贡献和效率。
- 24:00 · VLA 架构与 Agent OS
- 对话转向 Li Auto 在 Vision-Language-Action (VLA) 模型上的开发,以及用于自主系统的 Agent OS 概念。
- 34:30 · 为自动驾驶训练 VLA
- Li 详细介绍了 VLA 的多阶段训练过程,将其比作人类从驾校到真实世界经验的学习过程。
- 48:30 · AI 终端与 AGI 的未来
- 讨论了什么构成了 AGI 终端,将未来的 AI 设备与智能手机和 PC 的演进进行了对比。
- 62:00 · AI 时代的组织演进
- Li 解释了 Li Auto 的组织结构如何适应并整合 AI,强调了需要一种“System 2”的思考方式。
- 76:00 · 领导力、成长与直面挑战
- 关于领导力的个人感悟,直面现实的重要性,以及建立一个有韧性、学习型组织的必要性。
- 90:00 · 人类与 AI 的关系
- 从哲学角度探讨 AI 将如何增强人类能力而不是取代人类,重点关注人机协作。
- 50:00 · Agent OS 与自动驾驶
- 探讨自动驾驶从基于规则的系统向 Agent OS 和 VLA 模型的转变。
- 60:00 · VLA 与世界模型的挑战
- 探讨 VLA 模型的复杂性、世界模型用于模拟的必要性以及验证成本。
- 75:00 · DeepSeek 与强化学习的影响
- 分析 DeepSeek 的语言能力和强化学习如何加速 AI 发展。
- 85:00 · 智能汽车的战略愿景
- 概述向 AI 驱动汽车的战略转变以及规模和用户基础的重要性。
- 95:00 · 构建 Agent OS
- 详细说明用于管理 AI 任务的强大 Agent OS 的架构和要求。
- 105:00 · 作为生产工具的 AI
- 区分作为信息工具的 AI 和需要具备行动能力的作为生产工具的 AI。
- 115:00 · 适应 AI 的组织变革
- 探讨公司必须如何调整其组织结构以有效利用 AI。
- 130:00 · 边缘 AI 与 VLA 的未来
- 预测大型 VLA 模型在汽车边缘设备上的部署。
- 150:00 · 人机交互与信任
- 强调在人类与 AI 系统之间建立信任和有效交互的重要性。
- 00:00 · 2030 年愿景与 DeepSeek 的影响
- Li Xiang 探讨了他希望 Li Auto 在 2030 年成为领先的 AI 终端公司的愿景,并赞扬了 DeepSeek 的开源贡献。
- 04:00 · 从信息工具到生产力工具
- 对话转向当前 AI 仅作为信息工具的局限性,以及 AI 成为能够采取行动的生产力工具的必要性。
- 13:00 · DeepSeek 的最佳实践与 VLA 模型
- Li Xiang 分析了 DeepSeek 的成功,强调了他们的研究方法,并介绍了用于自动驾驶的 VLA (Vision-Language-Action) 模型概念。
- 26:00 · Agent OS 与操作系统的未来
- 讨论了管理多个 AI 代理需要 Agent OS,以及控制操作系统的战略重要性。
- 36:00 · 组织进化与领导力
- Li Xiang 反思了 AI 如何改变组织结构,以及领导力在适应这些变化中的作用。
- 48:00 · 人机关系与个人反思
- 关于人类与 AI 关系的哲学讨论,强调 AI 应该服务于人类,而不是取代人类的同理心。
- 60:00 · 对 AI 硬件初创公司的批评
- Li Xiang 批评了当前如 Rabbit 等 AI 硬件初创公司,认为它们缺乏必要的基础,仅仅是套壳。
- 00:00 · 2030年愿景与人类及AI能力的对比
- 探讨成为领先AI终端公司的目标,以及人类应如何专注于减熵(商减)。
- 05:00 · AI作为生产工具
- 分析为什么目前大多数AI只是信息工具,并定义了能够采取行动的真正生产工具。
- 15:00 · DeepSeek的影响与开源
- 赞扬DeepSeek的方法论以及开源模型如何加速开发。
- 25:00 · 自动驾驶与VLA模型
- 详细说明自动驾驶和车载智能体向VLA(视觉-语言-动作)模型的转变。
- 40:00 · 面向AI的组织进化
- 解释公司结构必须如何适应AI,摆脱传统管理模式。
- 150:00 · AI哲学、智慧与人性
- 反思AI对齐、智能与智慧的区别,以及未来人类与AI的关系。
数据 (21)
| 时间 | 事实 | 数值 | 背景 |
|---|---|---|---|
| 01:30 | Llama 4 训练数据规模 | 30T tokens | 讨论最新语言模型所需的海量数据规模。 |
| 02:30 | 经过的时间 | 130 days | 自上次 AI Talk 采访以来经过的时间。 |
| 13:30 | DeepSeek V3 参数规模 | 671 Billion | 强调 DeepSeek 的 MoE 模型规模。 |
| 42:30 | VLA 模型参数规模 | 3.2B to 4B | 正在为边缘设备开发的 Vision-Language-Action 模型的大小。 |
| 63:00 | 仿真测试成本降低 | From 180,000 RMB to 4,000 RMB per 10,000 km | 通过新的 AI 仿真和验证方法实现的成本大幅降低。 |
| 63:50 | 验证成本 | 4000 RMB | 验证模型的成本已大幅下降。 |
| 82:50 | 边缘模型参数量 | 32B parameters | 目标是直接在汽车的边缘计算平台上运行 32B parameters 的模型。 |
| 83:00 | 云端模型参数量 | 300B parameters | 一个 300B parameters 的 VLA 模型被用于基于云端的训练和模拟。 |
| 84:40 | 公司营收 | 100 billion RMB | Li Auto 今年的预计营收。 |
| 101:10 | 上下文窗口 | 1 million tokens | 当前的大语言模型可支持高达 1 million tokens 的上下文。 |
| 113:30 | 模型参数量 | 671B parameters | 指 DeepSeek V3 模型的大小。 |
| 00:00 | 2030 年愿景 | 2030 | 成为全球领先的 AI 终端企业的总体目标。 |
| 01:10 | 预训练数据规模 | 30T | 在 Llama 4 数据规模的语境中提及。 |
| 02:20 | 距上次 AI 访谈的时间 | 130 days | 距离他们上次关于 AI 的重要讨论所经过的时间。 |
| 13:30 | DeepSeek V3 参数量 | 671 billion | DeepSeek V3 MOE 模型的参数规模。 |
| 26:00 | 开源带来的成本节约 | Hundreds of millions RMB | 通过使用如 DeepSeek 等开源模型所节省的预估成本。 |
| 58:00 | Li ONE 发布年份 | 2018 | Li ONE 首次发布的年份。 |
| 00:00 | 目标年份 | 2030 | 成为全球领先的AI终端企业的目标。 |
| 01:30 | 数据规模 | 30T | 用于训练Llama 4等模型的数据量。 |
| 02:30 | 观察时间范围 | 130 days | 观察中国AI取得重大进展的时间范围。 |
| 13:30 | 模型参数 | 671 billion | DeepSeek V3模型的参数量。 |
研究观点 & 预测 (11)
- [08:00] AI 必须从信息工具转变为生产工具,才能实现其真正的价值。
- 证据: 当前的 AI 主要提供信息(如搜索),但真正的“Agents”必须采取行动并完成任务,才能被视为生产工具。
- [14:20] VLA (Vision-Language-Action) 模型是解决复杂自动驾驶和机器人技术的关键。
- 证据: VLA 允许系统理解物理世界并采取直接行动,超越了简单的感知。
- [48:30] 终极的 AGI 终端将不仅仅是一个软件应用,而是一个深度集成的硬件和 OS 生态系统。
- 证据: 将未来的 AGI 设备与 iPhone 进行比较,需要一个专用的“Agent OS”来管理传感器、计算和行动。
- [73:00] VLA 模型能够解决完全自动驾驶问题。
- 证据: 视觉、语言和动作的融合提供了必要的推理和执行能力。
- [88:00] 汽车将成为终极的 AI 终端。
- 证据: 汽车具备充分利用 AGI 所需的电力、算力和传感器。
- [108:00] AI 必须从信息工具向生产工具转变。
- 证据: 为了创造真正的价值,AI 必须能够在物理或数字世界中采取行动,而不仅仅是提供文本。
- [04:30] AI 必须从信息工具转变为生产力工具。
- 证据: 当前的 AI 仅提供信息;真正的价值在于 AI 采取行动(Agents)以提高生产力。
- [15:00] VLA (Vision-Language-Action) 模型是自动驾驶的未来。
- 证据: VLA 模型可以处理 3D 视觉和语言,直接输出驾驶动作,从而取代传统的模块化系统。
- [27:00] 需要一个 Agent OS 来管理激增的 AI 代理。
- 证据: 随着代理变得越来越普遍,需要一个专用的操作系统来协调它们,就像 iOS/Android 管理应用程序一样。
- [08:00] 要让AI成为生产工具,它必须具备“action”(执行)能力;仅仅知道是不够的,必须去行动。
- 证据: 当前行业向智能体工作流的转变。
- [156:00] AI的智能将无限增长,但处理关系和价值观的人类智慧仍然是独一无二的。
- 证据: 关于人类与AI共存的长期哲学观点。
关键概念 (16)
- [14:20] VLA (Vision-Language-Action)
- 一种多模态 AI 架构,处理视觉和语言输入以直接输出物理动作,对机器人技术和自动驾驶至关重要。
- [07:20] Agent
- 一种 AI 系统,不仅能回答问题,还能自主规划、使用工具并执行动作以实现特定目标。
- [28:50] Agent OS
- 专为 AI Agents 设计的操作系统,允许它们与硬件、传感器和其他软件无缝连接。
- [37:00] System 1 vs. System 2
- 一种认知框架,其中 System 1 是快速、直觉和反应性的(如基础驾驶),而 System 2 是缓慢、深思熟虑和基于推理的(如在复杂、新颖的场景中导航)。
- [52:20] Agent OS
- 一个旨在利用 AI 智能体来管理、调度和执行任务的操作系统。
- [56:40] VLA (Vision-Language-Action)
- 一种处理视觉和语言输入以直接生成动作的模型架构,对机器人和自动驾驶至关重要。
- [63:40] World Model
- 一个对物理世界进行建模的模拟系统,用于安全高效地训练和验证 AI 智能体。
- [108:00] Production Tool vs. Information Tool
- 仅提供信息的 AI(如聊天机器人)与能够执行任务并创造实际价值的 AI 之间的区别。
- [04:30] 生产力工具 vs. 信息工具
- 信息工具提供数据(如搜索引擎或基础 LLM),而生产力工具(Agents)则自主采取行动并完成任务。
- [13:30] MOE (Mixture of Experts)
- 一种神经网络架构,对于给定的输入,只有网络的一个子集被激活,从而提高效率并降低计算成本。
- [15:00] VLA (Vision-Language-Action)
- 一种集成了视觉感知、语言理解和动作生成的 AI 模型架构,对自动驾驶等具身智能至关重要。
- [27:00] Agent OS
- 一种专门设计用于管理、协调并为设备上运行的各种 AI 代理提供资源的操作系统。
- [05:00] Production Tool (生产工具)
- 用户愿意为其付费的AI,因为它能执行动作并创造切实价值,不同于纯粹的信息工具。
- [26:30] VLA (Vision-Language-Action)
- 一种整合了视觉感知、语言理解和物理动作执行的模型架构,是机器人和自动驾驶的关键。
- [01:10] Entropy Reduction (商减)
- 人类从复杂信息中简化和提取意义的能力,与AI处理海量数据的能力形成对比。
- [45:00] Agent OS
- 一种旨在管理和协调各种AI智能体以在设备上执行复杂任务的操作系统。
提及人物 (11)
- Liang Wenfeng — DeepSeek 创始人,因其对最佳实践和开源的奉献精神而受到 Li Xiang 的赞赏。
- Chen Wei — Li Auto 的同事,在提及坚定追求端到端 VLA 模型的决定时被提到。
- Xie Yan — Li Auto CTO,作为支持公司 AI 转型的核心领导团队成员被提及。
- Lu Qi — 提到他提出了一个关于 AI 和人类理解的深刻问题。
- Li Xiang — Li Auto 的 CEO,在公司领导力和战略的背景下被提及。
- Fan Zheng — 作为公司内的关键同事和支持系统被提及。
- Li Feifei — 因其在空间智能及其在自动驾驶中的应用研究而被提及。
- Shen Yanan — Li Auto 前总裁,核心领导团队成员。
- Ma Donghui — Li Auto 总裁,核心领导团队成员。
- Li Tie — Li Auto CFO,核心领导团队成员。
- Founder of DeepSeek — 因其在浙江大学的AI背景而受到认可。
公司提及 (13)
DeepSeek · Manus · Tesla · OpenAI · Apple · Microsoft · Li Auto · BBA (Benz, BMW, Audi) · Toyota · Google · Rabbit · Li Auto (理想汽车) · Qwen
引用 (12)
人类要去做商减,而不要去做商增。 — Li Xiang @ 01:10
没有一个AI产品满足了生产工具的条件,它只是一个辅助工具。 — Li Xiang @ 08:00
只有坚守最佳实践,才能让我们更加敬佩他。 — Li Xiang @ 20:50
我们只想让它成为一个真正的司机。 — Li Auto Executive @ 50:40
因为你说人类的最佳实践往往是反人类的。 — Li Auto Executive @ 59:50
如果你想成为一个生产工具,你必须具备行动能力。 — Li Auto Executive @ 108:00
如果一个 AI 产品不能成为生产力工具,那它就只是个信息工具。而用户是不会为信息工具买单的。 — Li Xiang @ 04:30
DeepSeek 的最佳实践是他们先做研究,再做开发。他们不会一上来就急着写代码。 — Li Xiang @ 13:50
AI 应该服务于人类,而不是取代人类。AI 的终极价值是降低人类的能量消耗。 — Li Xiang @ 48:00
人类要做商减,而不要去做商增。 — Guest @ 01:10
不能只是知,必须行。 — Guest @ 08:50
AI的智能在无限增强。 — Guest @ 156:00
经历 & 个人故事 (6)
- [76:00] Li Xiang 反思了组织管理的挑战,指出随着公司规模的扩大,领导层必须从依赖直觉转变为建立强大的、学习驱动的系统(System 2 思考),以应对复杂性。
- [57:50] 嘉宾回顾了 2021 年开始的自动驾驶研究,以及这些年来他们方法的演变。
- [114:00] 探讨了 Li Auto 领导团队内部的动态和支持系统,强调了相互信任的重要性。
- [36:00] Li Xiang 讨论了他的领导风格和 Li Auto 组织结构的演变,强调了从传统层级结构向更加融合 AI 的矩阵式组织的转变。
- [56:00] 他回顾了 Li Auto 的早期阶段、他们面临的挑战,以及核心团队(包括 Shen Yanan、Ma Donghui 和 Li Tie)如何在困难时期相互支持。
- [00:00] 嘉宾概述了他的长期愿景,即到2030年将其公司发展成为全球领先的AI终端企业。
工具与模型 (16)
- DeepSeek V3 / R1: 开源的大型语言和推理模型,在实现最先进性能的同时,显著降低了训练和推理成本。
- Llama 4: Meta 即将推出的大型语言模型,以其庞大的 30T token 训练数据规模而闻名。
- Cursor: 一款由 AI 驱动的代码编辑器,作为向真正的生产 Agent 迈进的工具示例被提及。
- Manus: 一款旨在自主执行复杂任务的 AI Agent。
- Agent OS: 管理和编排 AI 智能体以执行复杂任务。
- VLA Models: 结合视觉、语言和动作,使自主系统能够与物理世界进行交互。
- DeepSeek V3: 一个以高性能和开源可用性而闻名的大语言模型。
- DeepSeek V3: 一个高效的混合专家 (MOE) 大型语言模型。
- DeepSeek R1: 一个专注于推理的 AI 模型。
- Cursor: 一个由 AI 驱动的代码编辑器,被开发者用于提高生产力。
- OpenAI Deep Research: 一个专为深度、自主研究任务设计的 AI 工具。
- DeepSeek V3: 一个拥有671B参数的高效MoE模型。
- DeepSeek R1: 一个利用强化学习的专注于推理的模型。
- Llama 4: 在提及使用30T海量数据集进行训练时被引用。
- Cursor: 被引用为目前可用于编程的少数真正的AI生产工具之一。
- OpenAI Deep Research: 被引用作为AI生产工具的例子。
主题
通用人工智能 (AGI) · 自动驾驶 · Vision-Language-Action (VLA) 模型 · AI Agents 与 Agent OS · 组织管理与演进 · 开源 AI 生态系统 · 自动驾驶 · Agent OS · VLA (Vision-Language-Action) 模型 · 世界模型与模拟 · 适应 AI 的组织变革 · 作为生产工具的 AI · 通用人工智能 (AGI) · 自动驾驶 · AI 代理与 Agent OS · 开源 AI 模型 (DeepSeek) · AI 时代的组织管理 · 人机交互 · AI作为生产工具 · VLA(视觉-语言-动作)模型 · 自动驾驶的演进 · 组织对AI的适应 · 人类与AI能力的对比
要点
- 为了让 AI 真正彻底改变行业,它必须从仅仅回答问题的“信息工具”演变为能够采取自主行动的“生产工具” (Agent)。
- Vision-Language-Action (VLA) 模型代表了自动驾驶和机器人技术的下一个重大飞跃,使系统能够理解物理世界并与之交互。
- DeepSeek 的开源战略和技术效率显著加速了 AI 行业的发展,使 Li Auto 等公司在研发中受益。
- 为了成功整合 AI,公司必须升级其组织结构,从直觉式的“System 1”管理转变为深思熟虑、基于推理的“System 2”流程。
- 自动驾驶的未来依赖于能够像人类司机一样推理和行动的 VLA 模型。
- AI 必须从信息工具演变为能够执行动作的生产工具。
- 公司需要调整其组织结构,以有效地整合和管理 AI 智能体。
- 世界模型对于安全高效地训练 AI 系统以进行物理世界交互至关重要。
- AI 必须从提供信息进化为采取行动(成为生产力工具),才能实现其真正的商业价值。
- 像 DeepSeek 这样的开源模型正在使 AI 能力民主化,并大幅降低了像 Li Auto 这样公司的研发成本。
- 智能设备的未来依赖于能够无缝集成和管理多个 AI 代理的 ‘Agent OS’。
- VLA (Vision-Language-Action) 模型代表了自动驾驶领域的范式转变,从模块化系统转向端到端 AI。
- 尽管 AI 取得了进步,但人类的同理心、情感连接和战略决策仍然是不可替代的。
- AI行业必须从构建信息工具向创建能够执行动作的生产工具(VLA)转变。
- 开源模型正在显著加速构建应用AI(如自动驾驶系统)的公司的研发周期。
- 组织需要围绕AI能力进行重组,从传统的层级结构转向支持AI驱动工作流的模式。
- 虽然AI在数据处理和智能方面将超越人类,但以关系、价值观和减熵为中心的人类智慧将仍然不可替代。