AI Inference Cost Fell 1,000x in 3 Years

类别: 定价与经济 · 时长: 17 分钟 · ▶ 观看

讲者: Female Co-host · Marco

Switch language → English

章节 (13)

  • 00:00:05 · 1000 倍的成本暴跌
    • AI 推理成本在三年内下降了 1000 倍,这一历史性的降幅超过了摩尔定律,使其成为科技界最重要的图表。
  • 00:00:48 · 推动成本暴跌的三大力量
    • 成本暴跌由三股汇聚的力量推动:模型效率的显著提升(如 Mixture of Experts)、API 提供商之间激烈的价格竞争,以及针对推理的硬件专业化。
  • 00:03:09 · 市场转变:从训练到推理
    • AI 算力市场正从以训练为主导向以推理为主导发生结构性转变,预计到 2026 年,推理将占所有 AI 算力的三分之二。
  • 00:03:38 · 开源的崛起
    • 开源 AI 市场正在爆发,企业对开放权重模型的部署从 23% 跃升至 67%,进一步推动了模型层的商品化。
  • 00:04:20 · 赢家与输家:亚洲优势
    • 成本暴跌使 AI 民主化,让亚洲(增长最快的 AI 推理市场)获得了不成比例的收益,使得中小企业能够大规模部署 AI。
  • 00:05:38 · 主权 AI 与新门槛
    • 廉价的推理使得新加坡、印度和日本等国家的主权 AI 计划变得可行,而无需庞大且昂贵的训练集群。
  • 00:06:13 · NVIDIA 的战略困境
    • NVIDIA 建立在针对训练优化的 GPU 上的主导地位正受到向推理转变的威胁,迫使他们通过从 Grok 获得专用推理 LPU 技术的许可来进行对冲。
  • 00:07:27 · 超大规模云厂商与定制芯片
    • Amazon、Google 和 Microsoft 等超大规模云厂商也在开发以推理效率为首要目标的定制芯片,他们意识到这才是持续收入的来源。
  • 00:07:53 · 悖论:成本下降,账单上升
    • 尽管单位成本暴跌,但由于企业在各处部署 AI,使用量的爆炸式增长快于成本的下降,导致企业 AI 总账单仍在上升。
  • 00:08:44 · 反向视角:廉价推理对 AI 公司不利吗?
    • 反向观点认为,成本暴跌对大多数 AI 模型提供商来说是糟糕的,因为它导致了商品化和价格上的逐底竞争,使他们受到价格竞争和流失给开源模型的双重挤压。
  • 00:10:27 · ROI 问题:为了 AI 而 AI
    • 尽管支出和使用量巨大,但只有不到 1% 的公司报告从 AI 中获得了显著的 ROI,这表明目前的大多数部署都是无效的实验(“为了 AI 而 AI”)。
  • 00:11:57 · 价值捕获向应用层转移
    • 随着基础设施和模型层的商品化,真正的价值将被应用层的公司捕获,这些公司在廉价推理的基础上构建了具体、可衡量的业务成果。
  • 00:13:00 · 投资者的行动指南
    • 投资者应跟踪推理与训练的比例,监控开源部署率与专有 API 收入的对比,并关注亚洲那些正在构建可衡量业务成果的应用层公司。

价格数据 (11)

时间 项目 数值 背景
00:00:17 GPT-4 level query (early 2023) $400 per million tokens 2023 年初在 GPT-4 级别性能下运行查询的成本。
00:00:24 GPT-4 level query (March 2026) 40 cents per million tokens 今天(2026 年 3 月)在相同性能水平下运行查询的成本。
00:01:04 DeepSeek V3 14 cents/M input tokens, 28 cents/M output tokens DeepSeek V3 模型的定价,比 GPT-4 发布时便宜约 20 倍。
00:01:27 Anthropic’s Claude Opus 4.1 $15 per million input tokens 大幅降价前的先前价格。
00:01:32 Anthropic’s Claude Opus 4.6 $5 per million input tokens 新价格,较上一版本下降了 67%。
00:01:35 Google’s Gemini 2.5 Pro $1.25 per million input tokens Google 高级模型的定价。
00:01:42 Gemini Flashlight 10 cents per million tokens Google 轻量级模型的定价。
00:01:44 Claude Haiku 25 cents per million tokens Anthropic 轻量级模型的定价,已接近数据库查询成本。
00:02:03 NVIDIA license from Grok $20 billion NVIDIA 为其 LPU 向初创公司 Grok 支付的技术许可费。
00:03:22 AI Inference Market Size (2026) >$50 billion 预计 2026 年推理市场的规模。
00:09:48 OpenAI Annual Revenue (2025) ~$4 billion 报道的 OpenAI 2025 年年度营收。

预测 (4)

  • [00:03:13, 2026] 推理工作负载将占所有 AI 算力的三分之二。
  • [00:03:21, 2026] 推理市场将超过 500 亿美元。
  • [00:04:30, 到 2035 年] 亚太地区 AI 推理市场将实现 24.7% 的复合年增长率。
  • [00:11:43, 未指定的未来] AI 将经历一个类似于云计算的周期:最初是由低廉成本驱动的普遍部署阶段,随后是合理化阶段,公司将削减那些不产生 ROI 的工作负载。

公司提及 (27)

OpenAI · DeepSeek · Anthropic · Google · NVIDIA · Grok · TrendForce · Cerebras · AWS (Amazon Web Services) · Deloitte · Alibaba · Meta · Tencent · Samsung · Grab · Reliance Jio · AMD · Intel · SambaNova · GoPay · Paytm · GCash · Shopee · Lazada · Tokopedia · TikTok · ByteDance

引用 (6)

And I believe this single chart, inference cost over time, is the most important chart in technology right now. — Marco @ 00:00:37

So NVIDIA is essentially admitting that GPUs are not the optimal architecture for inference. — Marco @ 00:02:33

It means larger AI budgets spent on orders of magnitude more AI usage. — Marco @ 00:08:37

The contrarian position is that the inference cost collapse is actually terrible for most AI companies, and potentially for the AI industry as a whole. — Marco @ 00:09:00

Most enterprise AI usage today is what I would call AI for the sake of AI. — Marco @ 00:11:07

If the inference cost collapse leads to commoditization of the inference layer, the value in the AI stack shifts. It moves away from the model layer… and away from the chip layer… and toward the application layer. — Marco @ 00:12:00

主题

AI 推理成本 · AI 经济学 · GPU vs ASIC · 推理硬件 · 开源 AI 模型 · AI 商品化 · AI 价值捕获 · 应用层 AI · 主权 AI · NVIDIA 战略 · 亚洲科技市场 · AI ROI · 训练与推理算力对比

要点

  • 在模型效率提升、硬件专业化和激烈的价格竞争推动下,AI 推理成本在三年内暴跌了 1000 倍,这一下降速度超过了摩尔定律。
  • AI 算力市场正经历从以训练为主导向以推理为主导的结构性转变,预计到 2026 年,推理将占据三分之二的市场份额。
  • 这一转变威胁到了 NVIDIA 针对训练优化的 GPU 业务,迫使他们投入巨资(200亿美元用于 Grok 的技术)开发专用推理硬件(LPUs/ASICs),以对冲未来的风险。
  • AI 技术栈中的价值正在从日益商品化的基础设施(芯片、APIs)和模型层,转移到应用层。在应用层,拥有领域专业知识和分发渠道的公司能够建立具有可衡量 ROI 的业务。
  • 成本的暴跌正在推动 AI 的民主化,使得新兴市场(尤其是亚洲,这是 AI 推理增长最快的地区)能够大规模采用 AI。
  • 开源模型在企业中的采用率正在迅速上升(一年内从 23% 跃升至 67%),这进一步推动了模型层的商品化,并给 OpenAI 和 Anthropic 等专有 API 提供商带来了压力。
  • 存在一个悖论:虽然单位推理成本正在暴跌,但由于使用量的爆炸式增长,企业 AI 总支出却在上升。然而,目前的 ROI 极低(<1%),这表明在可能出现的合理化阶段之前,目前正处于广泛的实验阶段。
  • AI 时代的赢家可能不是芯片或模型制造商,而是那些有效利用廉价推理来解决特定业务问题的应用层公司,尤其是那些在亚洲等地区拥有深厚本地市场知识的公司。