Industry Map · v3 light · 2026 Q2

AI 产业链全景图：训练 ↔ 推理 / 部署 · 五层产业流水线

应用层频率×价值×速度三维定位 · 渠道层 Token Efficiency 决胜 · 模型/硬件/能源三层产业链拆解到每个环节

XT · MEMO 数字化重制 v3 (light)
版本 2026-05-15
置信度 · 中

应用

APPLICATION

货币化兑现点 · 三维定位：使用频率 × 场景价值 × 交互速度。颜色编码交互速度要求，决定了适用的推理基础设施与延迟预算。

应用层 · 频率 × 价值 × 速度三维定位

点大小 ≈ 公司当前 ARR（对数尺度）· 颜色 = 交互速度要求

实时 <200ms · 语音 / Tab 补全

低延迟 <1s · 客服 / 实时文书

标准 1-3s · 对话 / 搜索

异步 / 批 · Agent / 长文档

交互速度决定推理基础设施选型与单位经济学

01-A

基准

EVALS

能力定价的"看板"。基准分数直接决定 API 价格与模型估值。

评估基准 · 模型能力的标尺

MMLU / MMLU-Pro

57 学科多任务语言理解，本科到专业水平。已基本饱和（>90%），区分度下降。通识

GPQA Diamond

研究生级物理 / 化学 / 生物问答，专家也答不出。SOTA 约 70-80%。推理

SWE-bench Verified

真实 GitHub issue 端到端修复，500 个人工核验任务。Coding Agent 北极星。编程

AIME / Math Olympiad

美国高中数学奥林匹克。前沿模型 80%+，但仍未稳定满分。数学

Humanity's Last Exam

3000 道跨领域专家级题，2025 年新基准，故意做难。SOTA 约 25-40%。极限难度

ARC-AGI / ARC-AGI-2

抽象视觉推理，对人类简单对模型难。o3 在 ARC-AGI-1 突破后，AGI-2 仍低分。通用智能

MMMU / MathVista

大学级多模态考试 + 视觉数学。考察视觉 + 推理融合。多模态

LiveCodeBench

每周更新的实时编程题，避免训练污染。衡量真实编程能力。编程

τ-bench / τ²-bench

航空 / 零售客服真实工具调用对话，单/双向交互。Agent 评估事实标准。Agent

渠道

CHANNEL

把模型送到应用的"分发层"。训练侧是云大厂的算力批发，推理侧是 token 经济学的战场。

PIPELINE 推理分发流水线 · 从模型权重到终端用户的四个环节

① 模型源

基础模型 + 开源权重

闭源 API（OpenAI · Anthropic · Google）+ 开源权重（Llama · Qwen · DeepSeek）

输出：可调用的模型端点

② API 网关

聚合 · 路由 · 计费

统一鉴权、多模型路由、降级、缓存、用量计费

玩家：OpenRouter · Portkey · LiteLLM · Vercel AI SDK

③ 推理服务

GPU 集群上的 token 工厂

vLLM / SGLang / TensorRT-LLM 等推理引擎在专用集群上服务 token

玩家：Together · Fireworks · Groq · Cerebras · ModelScope

④ 终端集成

SDK · App · Agent

应用层调用以上任一层，可能再叠加 RAG / 工具调用 / 多 Agent 编排

关键：上下文管理、流式输出、错误处理

02-x

两侧

TRAIN / INFER

训练侧买算力，推理侧卖 token。

训练算力市场 · 长合约B2B

超大规模云 · Hyperscaler

AWSAzureGCPOracle阿里云腾讯云火山引擎华为云

Neocloud · GPU 专营

CoreWeaveLambdaCrusoeVoltage ParkNebius · 利用 Nvidia 配额优势

商业模式

多年期 capex commit · 预订 H100/B200 集群 · 价格波动大，过度承诺风险高

推理分发 · 三条路径B2B+B2C

① 聚合 API · 多模型路由

OpenRouterPortkeyLiteLLMVercel AI SDK

② 推理服务商 · 开源托管

TogetherFireworksGroqCerebrasModelScope硅基流动

③ 独自部署 · 私有化 / 边缘

vLLMSGLangTensorRT-LLMllama.cppOllamaLMDeploy

02-T

Token

EFFICIENCY

每个 token 的成本和延迟，是推理侧单位经济学的本质。所有玩家都在压这两个数字。

Token Efficiency · 推理经济学的四个 KPI

$/M tokens

$0.15 - $15

输入/输出双轨。前沿模型输入 $3-5/M，缓存 token 折扣 50-90%

TTFT · 首 token 延迟

100ms - 2s

Groq LPU 可低至 ~80ms；标准 cloud 推理约 200-500ms

TPOT · 单 token 延迟

10ms - 50ms

决定流式输出体感速度。Groq/Cerebras 可达 500+ tok/s

吞吐 · concurrent

100 - 10000 req/GPU

取决于 batching、KV cache、模型大小。决定单位成本

▸ 优化技术栈 · 推理引擎层

KV cachePrefix cachingSpeculative decodingContinuous batchingPagedAttentionQuantization FP8/INT4FlashAttention-3Tensor parallelism

推理速度自 2023 年起累计提升约 10-30 倍，同等 GPU 成本下吞吐翻番再翻番

▸ 行业方向 · 商业模式层

模型路由Small model first蒸馏 + 量化MoE 稀疏激活推理专用 ASIC边缘推理Outcome-based pricing

同等 token 价格 2023→2026 累计下降约 95%+。新模式：按结果而非按 token 计费

模型

MODEL

从原始数据到可调用 API 的完整工序。每环节的资源消耗与技术含量决定了模型层的竞争格局。

PIPELINE 模型生命周期 · 从数据到 token 的七个环节

① 数据

数据采集与清洗

网页爬取 · 书籍 · 代码 · 多模态。去重、过滤、毒性去除

规模：10-100T tokens

② 预训练

Base model · 大力出奇迹

Next-token prediction，大规模分布式训练，学到世界知识与语言结构

成本：$10M - $1B+

③ 中期训练

能力扩展

长上下文扩展、多模态融合、代码强化、指令格式化

技术：YaRN · 渐进式

④ 后训练

对齐 + 偏好优化

SFT 监督微调 · RLHF · DPO · Constitutional AI · RLAIF · 工具使用训练

重要性：↑ 持续上升

⑤ 评估

基准 + 红队

公开 benchmark + 内部 evals + 红队对抗测试 + 安全审计

看板：MMLU · SWE-bench

⑥ 部署

推理优化 + 上线

蒸馏 / 量化 / 编译优化，部署到推理集群，配 KV cache 与 batching

目标：压成本提速度

⑦ 推理

Token 工厂

服务终端调用，按 token 计费或 outcome 计费，反馈回流到下一轮训练

趋势：Test-time compute ↑

03-x

两侧

TRAIN / INFER

训练边际收益递减，推理急速扩张。

训练侧 · 寡头化CapEx 战争

▼ 预训练边际收益递减 · 数据耗尽问题显现

全球玩家

OpenAI GPT-5 / o3 Anthropic Claude Opus 4.7 Google Gemini 2.5/3 xAI Grok 4 Meta Llama 4

中国玩家

DeepSeek V3 / R1 Alibaba Qwen 3 Moonshot Kimi K2 Zhipu GLM-4.6 MiniMax M2 Baidu ERNIE 4.5 ByteDance Doubao

单次训练成本

$10M – $1B+ · 顶级 AI 人才薪酬 $1M – $100M · 折旧 2-3 年

推理侧 · 价值兑现扩张中

▲ Test-time compute 急速扩张 · o-series / R1 推理增强

商业模式

订阅：ChatGPT Plus $20/Pro $200 · Claude Pro $20/Max $100-200 · Gemini Advanced $20
API：按 token 计价（输入/输出/缓存三轨）· 长上下文溢价

价格趋势

GPT-4 级 API 价格自 2023 已下降 ~95%+ · 开源 + 中国模型加速这一过程 · 纯推理利润被持续压缩

推理优化技术栈

KV cacheSpeculative decodingMoE 路由FP8/INT4 量化Continuous batchingPagedAttention

硬件

HARDWARE

从沙子到 GW 级集群的物理流水线。每个环节都有结构性瓶颈，构成最深的护城河。

PIPELINE 硬件产业链 · 从硅到集群的七个环节

① 硅片

硅原料 · 12寸晶圆

高纯多晶硅熔炼成单晶硅锭，切片成 12 寸晶圆基板

玩家：信越 · SUMCO

② 晶圆制造

先进制程 Fab

光刻 + 蚀刻 + 沉积，~2000 道工序。Blackwell 用 N4P，HBM 用 1z/1α nm

玩家：TSMC · Samsung · Intel · 中芯（受限）

③ HBM

高带宽内存

DRAM die 多层 TSV 垂直堆叠（HBM3E 8/12 层），是 AI 的核心瓶颈

玩家：SK 海力士 ~50%+ · 三星 · 美光

④ 先进封装

CoWoS · 2.5D 集成

GPU die + HBM die 通过硅 interposer 集成在一个 package 内

玩家：TSMC CoWoS 几近垄断

⑤ 加速卡

SXM / PCIe 板卡

封装后的芯片焊到 SXM 卡上，配 VRM、散热片、连接器

玩家：Nvidia · 华为 · AMD

⑥ 服务器

8-GPU 节点

8 张 SXM 卡 + CPU + 内存 + NVLink + 网卡，整机功耗 10-15kW

玩家：超微 · 鸿海 · 工业富联

⑦ 集群

NVL72 / Pod / DC

72 GPU 一柜 · 数千机柜组 Pod · InfiniBand/RoCE 互联 · GW 级 DC

玩家：Hyperscaler · Neocloud

04-x

两侧

TRAIN / INFER

训练用最贵最新，推理百舸争流。

训练硬件 · 高度集中寡头

HBM · 核心瓶颈

SK 海力士（~50%+ HBM3E 主导）· Samsung · Micron · 国产长鑫 CXMT 仍 HBM2 阶段

GPU · Nvidia 近垄断

H100H200B100B200GB200 NVL72GB300
中国受限版：H20B30A（传） · 国产训练：华为昇腾 910B/910C

互联 · 隐藏瓶颈

NVLink 5NVSwitchInfiniBand NDRRoCE · 大集群训练性能 30%+ 取决于网络

推理硬件 · 百舸争流国产窗口

GPU · Nvidia 仍领先

Nvidia H100L40SRTX Pro 6000 · 国产昇腾 910B/C寒武纪海光摩尔线程沐曦壁仞

专用推理芯片 · 挑战 Nvidia

Groq LPUCerebras WSE-3SambaNovaTenstorrentEtched SohuAWS Trainium/InferentiaGoogle TPU v5/v6

架构 · ARM 上位 · 边缘成熟

ARM NeoverseNvidia GraceApple Neural EngineQualcomm AI Engine · 端侧 ≤7B 模型推理硬件已成熟

能源

ENERGY

2026-2030 年的核心约束。从一次能源到机柜的每一步都有损耗，每一步都是中美差异的产生点。

PIPELINE 能源产业链 · 从化石燃料到算力的六个环节

① 一次能源

化石 · 核 · 可再生

天然气 / 煤 / 铀 / 太阳能 / 风能 / 水。决定碳排与单位电价

结构：美 — 气主导 · 中 — 煤+风光增量

② 发电

燃机 · 反应堆 · 光伏

燃气联合循环 60%+ 效率 · 大堆 33% · 小堆 SMR 灵活 · 光伏装机暴增

新趋势：SMR · 风光配储

③ 输电

高压远距离输送

交流 500kV / 直流 ±800-1100kV (UHV)，远距离损耗 5-7%

中国优势：特高压 UHV

④ 配电

变电站 + 接入

降压到 35/10kV → 数据中心高压配电柜。变压器排队 2-3 年

瓶颈：电网接入而非发电

⑤ 数据中心

IT 负载 + 配电

UPS 与电池后备 → PDU → 机柜 → 服务器。GPU 单卡 700-1200W

密度：单柜 30-130kW

⑥ 散热

液冷 · 蒸发 · 空冷

冷板液冷 / 浸没液冷必备。PUE 训练<1.15 推理<1.3。余热回收兴起

趋势：液冷成训练标配

05-x

两侧

TRAIN / INFER

训练要集中大功率，推理要靠近用户。

训练能源 · 集中超大负载GW 级

美国 · 廉价电 + 宽松监管

德州 ERCOT（独立电网 + 廉价气电 + 风电）· Virginia DC 走廊（占全美 DC 流量 ~70%）· Phoenix AZ · Wyoming

中国 · 东数西算工程

内蒙古和林格尔宁夏中卫甘肃庆阳贵州贵安四川天府青海

散热标配

液冷-冷板液冷-浸没 · PUE 目标 < 1.15

推理能源 · 分布式低延迟就近接入

美国 · 核电复兴

SMR 小堆：OkloNuScaleX-energy
重启 / 长协：Microsoft × Constellation 三里岛 · AWS × Talen Susquehanna · Meta × Constellation · Google × Kairos Power

中国 · 东沿 + 西能

推理下沉长三角/珠三角/京津冀；西部能源经 特高压 ±800kV/±1100kV 直送 · 沿海核电加速（华龙一号、玲龙一号 SMR）

关键约束

美电网升级滞后（变压器周期 2-3 年）· 中国 PUE 监管收紧 · 共同瓶颈：电网接入排队

数据来源 · SEMI / TrendForce HBM 报告 · IEA Electricity 2025 · 中国"东数西算"白皮书 · Anthropic/OpenAI/Google 公开发布 · Artificial Analysis · SemiAnalysis · Sacra · Bessemer/ICONIQ State of AI 2026 · 各厂商 IR · 数值截至 2026-05；模型版本、价格、ARR 随时间变化，决策时请二次核验