AI Talk: 对话 Li Xiang，探讨 AGI、VLA 与自动驾驶的未来

时长: 164 分钟 · ▶ 观看视频

嘉宾: Li Xiang · Li Auto 创始人

章节 (30)

00:00 · AI 作为信息工具与生产工具的对比
- Li Xiang 探讨了当前 AI 仅仅作为信息工具的局限性，以及其成为以行动为导向的生产工具的必要性。
11:40 · Li Auto 的进展与 DeepSeek 的影响
- 回顾过去的 130 天，Li 强调了 AI 模型的进步，特别赞赏了 DeepSeek 的开源贡献和效率。
24:00 · VLA 架构与 Agent OS
- 对话转向 Li Auto 在 Vision-Language-Action (VLA) 模型上的开发，以及用于自主系统的 Agent OS 概念。
34:30 · 为自动驾驶训练 VLA
- Li 详细介绍了 VLA 的多阶段训练过程，将其比作人类从驾校到真实世界经验的学习过程。
48:30 · AI 终端与 AGI 的未来
- 讨论了什么构成了 AGI 终端，将未来的 AI 设备与智能手机和 PC 的演进进行了对比。
62:00 · AI 时代的组织演进
- Li 解释了 Li Auto 的组织结构如何适应并整合 AI，强调了需要一种“System 2”的思考方式。
76:00 · 领导力、成长与直面挑战
- 关于领导力的个人感悟，直面现实的重要性，以及建立一个有韧性、学习型组织的必要性。
90:00 · 人类与 AI 的关系
- 从哲学角度探讨 AI 将如何增强人类能力而不是取代人类，重点关注人机协作。
50:00 · Agent OS 与自动驾驶
- 探讨自动驾驶从基于规则的系统向 Agent OS 和 VLA 模型的转变。
60:00 · VLA 与世界模型的挑战
- 探讨 VLA 模型的复杂性、世界模型用于模拟的必要性以及验证成本。
75:00 · DeepSeek 与强化学习的影响
- 分析 DeepSeek 的语言能力和强化学习如何加速 AI 发展。
85:00 · 智能汽车的战略愿景
- 概述向 AI 驱动汽车的战略转变以及规模和用户基础的重要性。
95:00 · 构建 Agent OS
- 详细说明用于管理 AI 任务的强大 Agent OS 的架构和要求。
105:00 · 作为生产工具的 AI
- 区分作为信息工具的 AI 和需要具备行动能力的作为生产工具的 AI。
115:00 · 适应 AI 的组织变革
- 探讨公司必须如何调整其组织结构以有效利用 AI。
130:00 · 边缘 AI 与 VLA 的未来
- 预测大型 VLA 模型在汽车边缘设备上的部署。
150:00 · 人机交互与信任
- 强调在人类与 AI 系统之间建立信任和有效交互的重要性。
00:00 · 2030 年愿景与 DeepSeek 的影响
- Li Xiang 探讨了他希望 Li Auto 在 2030 年成为领先的 AI 终端公司的愿景，并赞扬了 DeepSeek 的开源贡献。
04:00 · 从信息工具到生产力工具
- 对话转向当前 AI 仅作为信息工具的局限性，以及 AI 成为能够采取行动的生产力工具的必要性。
13:00 · DeepSeek 的最佳实践与 VLA 模型
- Li Xiang 分析了 DeepSeek 的成功，强调了他们的研究方法，并介绍了用于自动驾驶的 VLA (Vision-Language-Action) 模型概念。
26:00 · Agent OS 与操作系统的未来
- 讨论了管理多个 AI 代理需要 Agent OS，以及控制操作系统的战略重要性。
36:00 · 组织进化与领导力
- Li Xiang 反思了 AI 如何改变组织结构，以及领导力在适应这些变化中的作用。
48:00 · 人机关系与个人反思
- 关于人类与 AI 关系的哲学讨论，强调 AI 应该服务于人类，而不是取代人类的同理心。
60:00 · 对 AI 硬件初创公司的批评
- Li Xiang 批评了当前如 Rabbit 等 AI 硬件初创公司，认为它们缺乏必要的基础，仅仅是套壳。
00:00 · 2030年愿景与人类及AI能力的对比
- 探讨成为领先AI终端公司的目标，以及人类应如何专注于减熵（商减）。
05:00 · AI作为生产工具
- 分析为什么目前大多数AI只是信息工具，并定义了能够采取行动的真正生产工具。
15:00 · DeepSeek的影响与开源
- 赞扬DeepSeek的方法论以及开源模型如何加速开发。
25:00 · 自动驾驶与VLA模型
- 详细说明自动驾驶和车载智能体向VLA（视觉-语言-动作）模型的转变。
40:00 · 面向AI的组织进化
- 解释公司结构必须如何适应AI，摆脱传统管理模式。
150:00 · AI哲学、智慧与人性
- 反思AI对齐、智能与智慧的区别，以及未来人类与AI的关系。

数据 (21)

时间	事实	数值	背景
01:30	Llama 4 训练数据规模	30T tokens	讨论最新语言模型所需的海量数据规模。
02:30	经过的时间	130 days	自上次 AI Talk 采访以来经过的时间。
13:30	DeepSeek V3 参数规模	671 Billion	强调 DeepSeek 的 MoE 模型规模。
42:30	VLA 模型参数规模	3.2B to 4B	正在为边缘设备开发的 Vision-Language-Action 模型的大小。
63:00	仿真测试成本降低	From 180,000 RMB to 4,000 RMB per 10,000 km	通过新的 AI 仿真和验证方法实现的成本大幅降低。
63:50	验证成本	4000 RMB	验证模型的成本已大幅下降。
82:50	边缘模型参数量	32B parameters	目标是直接在汽车的边缘计算平台上运行 32B parameters 的模型。
83:00	云端模型参数量	300B parameters	一个 300B parameters 的 VLA 模型被用于基于云端的训练和模拟。
84:40	公司营收	100 billion RMB	Li Auto 今年的预计营收。
101:10	上下文窗口	1 million tokens	当前的大语言模型可支持高达 1 million tokens 的上下文。
113:30	模型参数量	671B parameters	指 DeepSeek V3 模型的大小。
00:00	2030 年愿景	2030	成为全球领先的 AI 终端企业的总体目标。
01:10	预训练数据规模	30T	在 Llama 4 数据规模的语境中提及。
02:20	距上次 AI 访谈的时间	130 days	距离他们上次关于 AI 的重要讨论所经过的时间。
13:30	DeepSeek V3 参数量	671 billion	DeepSeek V3 MOE 模型的参数规模。
26:00	开源带来的成本节约	Hundreds of millions RMB	通过使用如 DeepSeek 等开源模型所节省的预估成本。
58:00	Li ONE 发布年份	2018	Li ONE 首次发布的年份。
00:00	目标年份	2030	成为全球领先的AI终端企业的目标。
01:30	数据规模	30T	用于训练Llama 4等模型的数据量。
02:30	观察时间范围	130 days	观察中国AI取得重大进展的时间范围。
13:30	模型参数	671 billion	DeepSeek V3模型的参数量。

研究观点 & 预测 (11)

[08:00] AI 必须从信息工具转变为生产工具，才能实现其真正的价值。
- 证据: 当前的 AI 主要提供信息（如搜索），但真正的“Agents”必须采取行动并完成任务，才能被视为生产工具。
[14:20] VLA (Vision-Language-Action) 模型是解决复杂自动驾驶和机器人技术的关键。
- 证据: VLA 允许系统理解物理世界并采取直接行动，超越了简单的感知。
[48:30] 终极的 AGI 终端将不仅仅是一个软件应用，而是一个深度集成的硬件和 OS 生态系统。
- 证据: 将未来的 AGI 设备与 iPhone 进行比较，需要一个专用的“Agent OS”来管理传感器、计算和行动。
[73:00] VLA 模型能够解决完全自动驾驶问题。
- 证据: 视觉、语言和动作的融合提供了必要的推理和执行能力。
[88:00] 汽车将成为终极的 AI 终端。
- 证据: 汽车具备充分利用 AGI 所需的电力、算力和传感器。
[108:00] AI 必须从信息工具向生产工具转变。
- 证据: 为了创造真正的价值，AI 必须能够在物理或数字世界中采取行动，而不仅仅是提供文本。
[04:30] AI 必须从信息工具转变为生产力工具。
- 证据: 当前的 AI 仅提供信息；真正的价值在于 AI 采取行动（Agents）以提高生产力。
[15:00] VLA (Vision-Language-Action) 模型是自动驾驶的未来。
- 证据: VLA 模型可以处理 3D 视觉和语言，直接输出驾驶动作，从而取代传统的模块化系统。
[27:00] 需要一个 Agent OS 来管理激增的 AI 代理。
- 证据: 随着代理变得越来越普遍，需要一个专用的操作系统来协调它们，就像 iOS/Android 管理应用程序一样。
[08:00] 要让AI成为生产工具，它必须具备“action”（执行）能力；仅仅知道是不够的，必须去行动。
- 证据: 当前行业向智能体工作流的转变。
[156:00] AI的智能将无限增长，但处理关系和价值观的人类智慧仍然是独一无二的。
- 证据: 关于人类与AI共存的长期哲学观点。

关键概念 (16)

[14:20] VLA (Vision-Language-Action)
- 一种多模态 AI 架构，处理视觉和语言输入以直接输出物理动作，对机器人技术和自动驾驶至关重要。
[07:20] Agent
- 一种 AI 系统，不仅能回答问题，还能自主规划、使用工具并执行动作以实现特定目标。
[28:50] Agent OS
- 专为 AI Agents 设计的操作系统，允许它们与硬件、传感器和其他软件无缝连接。
[37:00] System 1 vs. System 2
- 一种认知框架，其中 System 1 是快速、直觉和反应性的（如基础驾驶），而 System 2 是缓慢、深思熟虑和基于推理的（如在复杂、新颖的场景中导航）。
[52:20] Agent OS
- 一个旨在利用 AI 智能体来管理、调度和执行任务的操作系统。
[56:40] VLA (Vision-Language-Action)
- 一种处理视觉和语言输入以直接生成动作的模型架构，对机器人和自动驾驶至关重要。
[63:40] World Model
- 一个对物理世界进行建模的模拟系统，用于安全高效地训练和验证 AI 智能体。
[108:00] Production Tool vs. Information Tool
- 仅提供信息的 AI（如聊天机器人）与能够执行任务并创造实际价值的 AI 之间的区别。
[04:30] 生产力工具 vs. 信息工具
- 信息工具提供数据（如搜索引擎或基础 LLM），而生产力工具（Agents）则自主采取行动并完成任务。
[13:30] MOE (Mixture of Experts)
- 一种神经网络架构，对于给定的输入，只有网络的一个子集被激活，从而提高效率并降低计算成本。
[15:00] VLA (Vision-Language-Action)
- 一种集成了视觉感知、语言理解和动作生成的 AI 模型架构，对自动驾驶等具身智能至关重要。
[27:00] Agent OS
- 一种专门设计用于管理、协调并为设备上运行的各种 AI 代理提供资源的操作系统。
[05:00] Production Tool (生产工具)
- 用户愿意为其付费的AI，因为它能执行动作并创造切实价值，不同于纯粹的信息工具。
[26:30] VLA (Vision-Language-Action)
- 一种整合了视觉感知、语言理解和物理动作执行的模型架构，是机器人和自动驾驶的关键。
[01:10] Entropy Reduction (商减)
- 人类从复杂信息中简化和提取意义的能力，与AI处理海量数据的能力形成对比。
[45:00] Agent OS
- 一种旨在管理和协调各种AI智能体以在设备上执行复杂任务的操作系统。

提及人物 (11)

Liang Wenfeng — DeepSeek 创始人，因其对最佳实践和开源的奉献精神而受到 Li Xiang 的赞赏。
Chen Wei — Li Auto 的同事，在提及坚定追求端到端 VLA 模型的决定时被提到。
Xie Yan — Li Auto CTO，作为支持公司 AI 转型的核心领导团队成员被提及。
Lu Qi — 提到他提出了一个关于 AI 和人类理解的深刻问题。
Li Xiang — Li Auto 的 CEO，在公司领导力和战略的背景下被提及。
Fan Zheng — 作为公司内的关键同事和支持系统被提及。
Li Feifei — 因其在空间智能及其在自动驾驶中的应用研究而被提及。
Shen Yanan — Li Auto 前总裁，核心领导团队成员。
Ma Donghui — Li Auto 总裁，核心领导团队成员。
Li Tie — Li Auto CFO，核心领导团队成员。
Founder of DeepSeek — 因其在浙江大学的AI背景而受到认可。

公司提及 (13)

DeepSeek · Manus · Tesla · OpenAI · Apple · Microsoft · Li Auto · BBA (Benz, BMW, Audi) · Toyota · Google · Rabbit · Li Auto (理想汽车) · Qwen

引用 (12)

人类要去做商减，而不要去做商增。 — Li Xiang @ 01:10

没有一个AI产品满足了生产工具的条件，它只是一个辅助工具。 — Li Xiang @ 08:00

只有坚守最佳实践，才能让我们更加敬佩他。 — Li Xiang @ 20:50

我们只想让它成为一个真正的司机。 — Li Auto Executive @ 50:40

因为你说人类的最佳实践往往是反人类的。 — Li Auto Executive @ 59:50

如果你想成为一个生产工具，你必须具备行动能力。 — Li Auto Executive @ 108:00

如果一个 AI 产品不能成为生产力工具，那它就只是个信息工具。而用户是不会为信息工具买单的。 — Li Xiang @ 04:30

DeepSeek 的最佳实践是他们先做研究，再做开发。他们不会一上来就急着写代码。 — Li Xiang @ 13:50

AI 应该服务于人类，而不是取代人类。AI 的终极价值是降低人类的能量消耗。 — Li Xiang @ 48:00

人类要做商减，而不要去做商增。 — Guest @ 01:10

不能只是知，必须行。 — Guest @ 08:50

AI的智能在无限增强。 — Guest @ 156:00

经历 & 个人故事 (6)

[76:00] Li Xiang 反思了组织管理的挑战，指出随着公司规模的扩大，领导层必须从依赖直觉转变为建立强大的、学习驱动的系统（System 2 思考），以应对复杂性。
[57:50] 嘉宾回顾了 2021 年开始的自动驾驶研究，以及这些年来他们方法的演变。
[114:00] 探讨了 Li Auto 领导团队内部的动态和支持系统，强调了相互信任的重要性。
[36:00] Li Xiang 讨论了他的领导风格和 Li Auto 组织结构的演变，强调了从传统层级结构向更加融合 AI 的矩阵式组织的转变。
[56:00] 他回顾了 Li Auto 的早期阶段、他们面临的挑战，以及核心团队（包括 Shen Yanan、Ma Donghui 和 Li Tie）如何在困难时期相互支持。
[00:00] 嘉宾概述了他的长期愿景，即到2030年将其公司发展成为全球领先的AI终端企业。

工具与模型 (16)

DeepSeek V3 / R1: 开源的大型语言和推理模型，在实现最先进性能的同时，显著降低了训练和推理成本。
Llama 4: Meta 即将推出的大型语言模型，以其庞大的 30T token 训练数据规模而闻名。
Cursor: 一款由 AI 驱动的代码编辑器，作为向真正的生产 Agent 迈进的工具示例被提及。
Manus: 一款旨在自主执行复杂任务的 AI Agent。
Agent OS: 管理和编排 AI 智能体以执行复杂任务。
VLA Models: 结合视觉、语言和动作，使自主系统能够与物理世界进行交互。
DeepSeek V3: 一个以高性能和开源可用性而闻名的大语言模型。
DeepSeek V3: 一个高效的混合专家 (MOE) 大型语言模型。
DeepSeek R1: 一个专注于推理的 AI 模型。
Cursor: 一个由 AI 驱动的代码编辑器，被开发者用于提高生产力。
OpenAI Deep Research: 一个专为深度、自主研究任务设计的 AI 工具。
DeepSeek V3: 一个拥有671B参数的高效MoE模型。
DeepSeek R1: 一个利用强化学习的专注于推理的模型。
Llama 4: 在提及使用30T海量数据集进行训练时被引用。
Cursor: 被引用为目前可用于编程的少数真正的AI生产工具之一。
OpenAI Deep Research: 被引用作为AI生产工具的例子。

主题

通用人工智能 (AGI) · 自动驾驶 · Vision-Language-Action (VLA) 模型 · AI Agents 与 Agent OS · 组织管理与演进 · 开源 AI 生态系统 · 自动驾驶 · Agent OS · VLA (Vision-Language-Action) 模型 · 世界模型与模拟 · 适应 AI 的组织变革 · 作为生产工具的 AI · 通用人工智能 (AGI) · 自动驾驶 · AI 代理与 Agent OS · 开源 AI 模型 (DeepSeek) · AI 时代的组织管理 · 人机交互 · AI作为生产工具 · VLA（视觉-语言-动作）模型 · 自动驾驶的演进 · 组织对AI的适应 · 人类与AI能力的对比

要点

为了让 AI 真正彻底改变行业，它必须从仅仅回答问题的“信息工具”演变为能够采取自主行动的“生产工具” (Agent)。
Vision-Language-Action (VLA) 模型代表了自动驾驶和机器人技术的下一个重大飞跃，使系统能够理解物理世界并与之交互。
DeepSeek 的开源战略和技术效率显著加速了 AI 行业的发展，使 Li Auto 等公司在研发中受益。
为了成功整合 AI，公司必须升级其组织结构，从直觉式的“System 1”管理转变为深思熟虑、基于推理的“System 2”流程。
自动驾驶的未来依赖于能够像人类司机一样推理和行动的 VLA 模型。
AI 必须从信息工具演变为能够执行动作的生产工具。
公司需要调整其组织结构，以有效地整合和管理 AI 智能体。
世界模型对于安全高效地训练 AI 系统以进行物理世界交互至关重要。
AI 必须从提供信息进化为采取行动（成为生产力工具），才能实现其真正的商业价值。
像 DeepSeek 这样的开源模型正在使 AI 能力民主化，并大幅降低了像 Li Auto 这样公司的研发成本。
智能设备的未来依赖于能够无缝集成和管理多个 AI 代理的 ‘Agent OS’。
VLA (Vision-Language-Action) 模型代表了自动驾驶领域的范式转变，从模块化系统转向端到端 AI。
尽管 AI 取得了进步，但人类的同理心、情感连接和战略决策仍然是不可替代的。
AI行业必须从构建信息工具向创建能够执行动作的生产工具（VLA）转变。
开源模型正在显著加速构建应用AI（如自动驾驶系统）的公司的研发周期。
组织需要围绕AI能力进行重组，从传统的层级结构转向支持AI驱动工作流的模式。
虽然AI在数据处理和智能方面将超越人类，但以关系、价值观和减熵为中心的人类智慧将仍然不可替代。