Industry Map · v3 light · 2026 Q2

AI 产业链全景图:训练推理 / 部署 · 五层产业流水线

应用层频率×价值×速度三维定位 · 渠道层 Token Efficiency 决胜 · 模型/硬件/能源三层产业链拆解到每个环节
XT · MEMO 数字化重制 v3 (light)
版本 2026-05-15
置信度 · 中
▼ 产业层级 · Stack
A / TRAINING SIDE
训练侧
前训练 + 后训练 · 边际收益递减 · 资本集中 · 工程化
B / INFERENCE & DEPLOYMENT
推理 / 部署侧
Test-time compute 扩张 · 商业化兑现 · 单位经济学决胜
01
应用
APPLICATION
货币化兑现点 · 三维定位:使用频率 × 场景价值 × 交互速度。颜色编码交互速度要求,决定了适用的推理基础设施与延迟预算。
应用层 · 频率 × 价值 × 速度三维定位
点大小 ≈ 公司当前 ARR(对数尺度)· 颜色 = 交互速度要求
Q3 · 低频 × 高价值 · 企业垂直壁垒 Q1 · 高频 × 高价值 · 星象限 ★ Q4 · 低频 × 低价值 · 边缘 / 免费层 Q2 · 高频 × 低价值 · 商品化红海 使用频率 (calls / user / day) → ↑ 场景价值 (单次替代人工成本) Cursor $2B ARR GitHub Copilot ChatGPT $20B+ rev Claude $19B ARR Devin 长周期 Agent Sierra $150M / $15.8B Glean $200M / $7.2B Decagon 药物发现 AI Recursion · Isomorphic Harvey $190M / $11B · 法律 Hebbia 金融文档 Legora Abridge $100M / $5.3B · 医疗 Ambience 保险核保 AI AlphaSense / BloombergGPT 工业质检 Landing AI Perplexity $450M / $20B Jasper $35M · 跌 53% Copy.ai / Writesonic Runway / Pika DeepL Character.AI $32M · 跌 60% Replika AI 简历 / 名字生成 Photoroom · Lensa Khanmigo Duolingo Max
实时 <200ms · 语音 / Tab 补全
低延迟 <1s · 客服 / 实时文书
标准 1-3s · 对话 / 搜索
异步 / 批 · Agent / 长文档
交互速度决定推理基础设施选型与单位经济学
01-A
基准
EVALS
能力定价的"看板"。基准分数直接决定 API 价格与模型估值。

评估基准 · 模型能力的标尺

MMLU / MMLU-Pro
57 学科多任务语言理解,本科到专业水平。已基本饱和(>90%),区分度下降。通识
GPQA Diamond
研究生级物理 / 化学 / 生物问答,专家也答不出。SOTA 约 70-80%。推理
SWE-bench Verified
真实 GitHub issue 端到端修复,500 个人工核验任务。Coding Agent 北极星编程
AIME / Math Olympiad
美国高中数学奥林匹克。前沿模型 80%+,但仍未稳定满分。数学
Humanity's Last Exam
3000 道跨领域专家级题,2025 年新基准,故意做难。SOTA 约 25-40%。极限难度
ARC-AGI / ARC-AGI-2
抽象视觉推理,对人类简单对模型难。o3 在 ARC-AGI-1 突破后,AGI-2 仍低分。通用智能
MMMU / MathVista
大学级多模态考试 + 视觉数学。考察视觉 + 推理融合。多模态
LiveCodeBench
每周更新的实时编程题,避免训练污染。衡量真实编程能力。编程
τ-bench / τ²-bench
航空 / 零售客服真实工具调用对话,单/双向交互。Agent 评估事实标准Agent
02
渠道
CHANNEL
把模型送到应用的"分发层"。训练侧是云大厂的算力批发,推理侧是 token 经济学的战场。
PIPELINE 推理分发流水线 · 从模型权重到终端用户的四个环节
① 模型源
基础模型 + 开源权重
闭源 API(OpenAI · Anthropic · Google)+ 开源权重(Llama · Qwen · DeepSeek)
输出:可调用的模型端点
② API 网关
聚合 · 路由 · 计费
统一鉴权、多模型路由、降级、缓存、用量计费
玩家:OpenRouter · Portkey · LiteLLM · Vercel AI SDK
③ 推理服务
GPU 集群上的 token 工厂
vLLM / SGLang / TensorRT-LLM 等推理引擎在专用集群上服务 token
玩家:Together · Fireworks · Groq · Cerebras · ModelScope
④ 终端集成
SDK · App · Agent
应用层调用以上任一层,可能再叠加 RAG / 工具调用 / 多 Agent 编排
关键:上下文管理、流式输出、错误处理
02-x
两侧
TRAIN / INFER
训练侧买算力,推理侧卖 token。
训练算力市场 · 长合约B2B
超大规模云 · Hyperscaler
AWSAzureGCPOracle阿里云腾讯云火山引擎华为云
Neocloud · GPU 专营
CoreWeaveLambdaCrusoeVoltage ParkNebius · 利用 Nvidia 配额优势
商业模式
多年期 capex commit · 预订 H100/B200 集群 · 价格波动大,过度承诺风险高
推理分发 · 三条路径B2B+B2C
① 聚合 API · 多模型路由
OpenRouterPortkeyLiteLLMVercel AI SDK
② 推理服务商 · 开源托管
TogetherFireworksGroqCerebrasModelScope硅基流动
③ 独自部署 · 私有化 / 边缘
vLLMSGLangTensorRT-LLMllama.cppOllamaLMDeploy
02-T
Token
EFFICIENCY
每个 token 的成本和延迟,是推理侧单位经济学的本质。所有玩家都在压这两个数字。

Token Efficiency · 推理经济学的四个 KPI

$/M tokens
$0.15 - $15
输入/输出双轨。前沿模型输入 $3-5/M,缓存 token 折扣 50-90%
TTFT · 首 token 延迟
100ms - 2s
Groq LPU 可低至 ~80ms;标准 cloud 推理约 200-500ms
TPOT · 单 token 延迟
10ms - 50ms
决定流式输出体感速度。Groq/Cerebras 可达 500+ tok/s
吞吐 · concurrent
100 - 10000 req/GPU
取决于 batching、KV cache、模型大小。决定单位成本
▸ 优化技术栈 · 推理引擎层
KV cachePrefix cachingSpeculative decodingContinuous batchingPagedAttentionQuantization FP8/INT4FlashAttention-3Tensor parallelism
推理速度自 2023 年起累计提升约 10-30 倍,同等 GPU 成本下吞吐翻番再翻番
▸ 行业方向 · 商业模式层
模型路由Small model first蒸馏 + 量化MoE 稀疏激活推理专用 ASIC边缘推理Outcome-based pricing
同等 token 价格 2023→2026 累计下降约 95%+。新模式:按结果而非按 token 计费
03
模型
MODEL
从原始数据到可调用 API 的完整工序。每环节的资源消耗与技术含量决定了模型层的竞争格局。
PIPELINE 模型生命周期 · 从数据到 token 的七个环节
① 数据
数据采集与清洗
网页爬取 · 书籍 · 代码 · 多模态。去重、过滤、毒性去除
规模:10-100T tokens
② 预训练
Base model · 大力出奇迹
Next-token prediction,大规模分布式训练,学到世界知识与语言结构
成本:$10M - $1B+
③ 中期训练
能力扩展
长上下文扩展、多模态融合、代码强化、指令格式化
技术:YaRN · 渐进式
④ 后训练
对齐 + 偏好优化
SFT 监督微调 · RLHF · DPO · Constitutional AI · RLAIF · 工具使用训练
重要性:↑ 持续上升
⑤ 评估
基准 + 红队
公开 benchmark + 内部 evals + 红队对抗测试 + 安全审计
看板:MMLU · SWE-bench
⑥ 部署
推理优化 + 上线
蒸馏 / 量化 / 编译优化,部署到推理集群,配 KV cache 与 batching
目标:压成本提速度
⑦ 推理
Token 工厂
服务终端调用,按 token 计费或 outcome 计费,反馈回流到下一轮训练
趋势:Test-time compute ↑
03-x
两侧
TRAIN / INFER
训练边际收益递减,推理急速扩张。
训练侧 · 寡头化CapEx 战争
预训练边际收益递减 · 数据耗尽问题显现
全球玩家
OpenAI GPT-5 / o3 Anthropic Claude Opus 4.7 Google Gemini 2.5/3 xAI Grok 4 Meta Llama 4
中国玩家
DeepSeek V3 / R1 Alibaba Qwen 3 Moonshot Kimi K2 Zhipu GLM-4.6 MiniMax M2 Baidu ERNIE 4.5 ByteDance Doubao
单次训练成本
$10M – $1B+ · 顶级 AI 人才薪酬 $1M – $100M · 折旧 2-3 年
推理侧 · 价值兑现扩张中
Test-time compute 急速扩张 · o-series / R1 推理增强
商业模式
订阅:ChatGPT Plus $20/Pro $200 · Claude Pro $20/Max $100-200 · Gemini Advanced $20
API:按 token 计价(输入/输出/缓存三轨)· 长上下文溢价
价格趋势
GPT-4 级 API 价格自 2023 已下降 ~95%+ · 开源 + 中国模型加速这一过程 · 纯推理利润被持续压缩
推理优化技术栈
KV cacheSpeculative decodingMoE 路由FP8/INT4 量化Continuous batchingPagedAttention
04
硬件
HARDWARE
从沙子到 GW 级集群的物理流水线。每个环节都有结构性瓶颈,构成最深的护城河。
PIPELINE 硬件产业链 · 从硅到集群的七个环节
① 硅片
硅原料 · 12寸晶圆
高纯多晶硅熔炼成单晶硅锭,切片成 12 寸晶圆基板
玩家:信越 · SUMCO
② 晶圆制造
先进制程 Fab
光刻 + 蚀刻 + 沉积,~2000 道工序。Blackwell 用 N4P,HBM 用 1z/1α nm
玩家:TSMC · Samsung · Intel · 中芯(受限)
③ HBM
高带宽内存
DRAM die 多层 TSV 垂直堆叠(HBM3E 8/12 层),是 AI 的核心瓶颈
玩家SK 海力士 ~50%+ · 三星 · 美光
④ 先进封装
CoWoS · 2.5D 集成
GPU die + HBM die 通过硅 interposer 集成在一个 package 内
玩家:TSMC CoWoS 几近垄断
⑤ 加速卡
SXM / PCIe 板卡
封装后的芯片焊到 SXM 卡上,配 VRM、散热片、连接器
玩家:Nvidia · 华为 · AMD
⑥ 服务器
8-GPU 节点
8 张 SXM 卡 + CPU + 内存 + NVLink + 网卡,整机功耗 10-15kW
玩家:超微 · 鸿海 · 工业富联
⑦ 集群
NVL72 / Pod / DC
72 GPU 一柜 · 数千机柜组 Pod · InfiniBand/RoCE 互联 · GW 级 DC
玩家:Hyperscaler · Neocloud
04-x
两侧
TRAIN / INFER
训练用最贵最新,推理百舸争流。
训练硬件 · 高度集中寡头
HBM · 核心瓶颈
SK 海力士(~50%+ HBM3E 主导)· Samsung · Micron · 国产 长鑫 CXMT 仍 HBM2 阶段
GPU · Nvidia 近垄断
H100H200B100B200GB200 NVL72GB300
中国受限版:H20B30A(传) · 国产训练:华为昇腾 910B/910C
互联 · 隐藏瓶颈
NVLink 5NVSwitchInfiniBand NDRRoCE · 大集群训练性能 30%+ 取决于网络
推理硬件 · 百舸争流国产窗口
GPU · Nvidia 仍领先
Nvidia H100L40SRTX Pro 6000 · 国产 昇腾 910B/C寒武纪海光摩尔线程沐曦壁仞
专用推理芯片 · 挑战 Nvidia
Groq LPUCerebras WSE-3SambaNovaTenstorrentEtched SohuAWS Trainium/InferentiaGoogle TPU v5/v6
架构 · ARM 上位 · 边缘成熟
ARM NeoverseNvidia GraceApple Neural EngineQualcomm AI Engine · 端侧 ≤7B 模型推理硬件已成熟
05
能源
ENERGY
2026-2030 年的核心约束。从一次能源到机柜的每一步都有损耗,每一步都是中美差异的产生点。
PIPELINE 能源产业链 · 从化石燃料到算力的六个环节
① 一次能源
化石 · 核 · 可再生
天然气 / 煤 / 铀 / 太阳能 / 风能 / 水。决定碳排与单位电价
结构:美 — 气主导 · 中 — 煤+风光增量
② 发电
燃机 · 反应堆 · 光伏
燃气联合循环 60%+ 效率 · 大堆 33% · 小堆 SMR 灵活 · 光伏装机暴增
新趋势:SMR · 风光配储
③ 输电
高压远距离输送
交流 500kV / 直流 ±800-1100kV (UHV),远距离损耗 5-7%
中国优势:特高压 UHV
④ 配电
变电站 + 接入
降压到 35/10kV → 数据中心高压配电柜。变压器排队 2-3 年
瓶颈:电网接入而非发电
⑤ 数据中心
IT 负载 + 配电
UPS 与电池后备 → PDU → 机柜 → 服务器。GPU 单卡 700-1200W
密度:单柜 30-130kW
⑥ 散热
液冷 · 蒸发 · 空冷
冷板液冷 / 浸没液冷必备。PUE 训练<1.15 推理<1.3。余热回收兴起
趋势:液冷成训练标配
05-x
两侧
TRAIN / INFER
训练要集中大功率,推理要靠近用户。
训练能源 · 集中超大负载GW 级
美国 · 廉价电 + 宽松监管
德州 ERCOT(独立电网 + 廉价气电 + 风电)· Virginia DC 走廊(占全美 DC 流量 ~70%)· Phoenix AZ · Wyoming
中国 · 东数西算工程
内蒙古和林格尔宁夏中卫甘肃庆阳贵州贵安四川天府青海
散热标配
液冷-冷板液冷-浸没 · PUE 目标 < 1.15
推理能源 · 分布式低延迟就近接入
美国 · 核电复兴
SMR 小堆OkloNuScaleX-energy
重启 / 长协:Microsoft × Constellation 三里岛 · AWS × Talen Susquehanna · Meta × Constellation · Google × Kairos Power
中国 · 东沿 + 西能
推理下沉长三角/珠三角/京津冀;西部能源经 特高压 ±800kV/±1100kV 直送 · 沿海核电加速(华龙一号、玲龙一号 SMR)
关键约束
美电网升级滞后(变压器周期 2-3 年)· 中国 PUE 监管收紧 · 共同瓶颈:电网接入排队
价值迁移
产业链权重正从 训练侧推理 / 部署 / 使用侧 系统性转移:CapEx 增速放缓,OpEx 与单位经济学成为决胜点
数据来源 · SEMI / TrendForce HBM 报告 · IEA Electricity 2025 · 中国"东数西算"白皮书 · Anthropic/OpenAI/Google 公开发布 · Artificial Analysis · SemiAnalysis · Sacra · Bessemer/ICONIQ State of AI 2026 · 各厂商 IR · 数值截至 2026-05;模型版本、价格、ARR 随时间变化,决策时请二次核验
© XT MEMO · v3.0 light · 制图 2026-05-15