GPU 之后为什么看 HBM 和存储？AI 基础设施投资链条拆解

2026-07-03 17:08:30

AI 基础设施中的数据中心算力与存储链条

AI 基础设施的投资主线正在从“谁有 GPU”扩展到“谁能让 GPU 高效运行”。你不能只看算力峰值，还要看 HBM 带宽、显存容量、企业级 SSD、Nearline HDD、网络、电力和数据中心存储架构。对普通投资者来说，GPU 是入口，HBM 和存储是判断 AI 需求是否继续外溢的重要线索。

核心要点

GPU 决定算力上限，HBM 决定模型吞吐和数据搬运效率。
AI 训练看集群吞吐，AI 推理更依赖内存、延迟和并发。
HBM、DRAM、SSD、HDD 对应不同数据温度和成本位置。
存储需求来自数据集、向量库、日志、模型权重和推理结果。
投资判断要看订单、价格、毛利率、库存和客户集中度。
AI 存储链条有成长弹性，也有周期反转和估值压缩风险。

GPU 之后为什么轮到 HBM 和存储？

GPU HBM 与半导体硬件之间的数据传输关系

GPU 之后要看 HBM 和存储，是因为 AI 系统的瓶颈正在从“有没有 GPU”转向“GPU 能不能持续获得足够快、足够近、足够大的数据供给”。GPU 负责计算，但模型权重、训练数据、KV cache、向量检索和推理日志都需要不同层级的内存和存储支撑。

你可以把 AI 数据中心理解成一座“AI 工厂”。GPU 是核心生产线，HBM 是贴着生产线的高速料仓，DRAM 是服务器内的缓冲区，SSD 是热数据仓库，HDD 和对象存储是大容量数据湖。如果料仓太小、传送带太慢，GPU 即使再贵，也会出现等待数据的问题。

NVIDIA 的产品升级也说明了这一点。NVIDIA H200 的 141GB HBM3e 与 4.8TB/s 带宽说明，高端 AI GPU 的竞争不只在 Tensor Core，也在更大显存和更高带宽。DGX B200 的 1,440GB GPU memory 与 64TB/s HBM3e bandwidth进一步把这种趋势推到系统级：一台 AI 服务器已经是 GPU、HBM、NVLink、CPU、DRAM、NVMe SSD 和网络设备的组合。

环节	主要解决的问题	对 AI 的影响	代表资产
GPU	矩阵计算	决定训练和推理速度上限	AI 加速器
HBM	高速近端内存	影响模型吞吐、上下文和并发	HBM3E、HBM4
DRAM	系统内存	支撑 CPU、缓存和数据预处理	DDR5、RDIMM
SSD	热数据访问	支撑向量库、RAG、缓存和高 IOPS	企业级 SSD
HDD	大容量保存	支撑数据湖、备份、训练数据和日志	Nearline HDD

对投资者来说，这意味着 AI 基础设施不再是单一 GPU 故事。你需要沿着数据流看：数据从哪里来，如何被读取，如何被缓存，如何进入 GPU，推理完成后又如何保存。只看 GPU 订单，容易忽略 HBM 供给、企业级 SSD 价格、Nearline HDD 出货和数据中心资本开支的变化。

Blackwell 架构的 2080 亿晶体管与 10TB/s chip-to-chip interconnect也说明，AI 芯片正在进入系统工程阶段。芯片内部互连、封装、HBM、服务器内存和机架级网络共同决定可用算力，而不是某一个零件单独决定结果。

小结：GPU 是 AI 基础设施投资的入口，但不是终点。你真正要观察的是“算力能否被持续喂满”。HBM 解决 GPU 近端带宽和容量问题，DRAM 与 SSD 解决服务器内部缓存和热数据访问，HDD 与对象存储解决海量数据沉淀。GPU 之后看 HBM 和存储，本质上是在看 AI 从芯片采购走向系统部署、从训练走向推理、从一次性建设走向长期数据运营。

HBM 为什么成为 AI GPU 的关键瓶颈？

HBM 高带宽内存与芯片互连的硬件基础

HBM 成为关键瓶颈，是因为大模型不只需要计算，也需要高速搬运数据。模型参数、激活值和 KV cache 都要频繁进出 GPU 近端内存。普通 DRAM 离 GPU 更远，带宽和延迟难以满足顶级 AI 加速器需求；HBM 通过堆叠和先进封装，把高带宽内存放在 GPU 附近。

HBM 解决的是带宽和近端容量问题

HBM 不是普通“内存条”的升级版，而是一种围绕 GPU 和 AI 加速器设计的高带宽内存。它通过多层 DRAM die 堆叠、TSV、interposer 和先进封装，把更宽的数据通道放在离计算单元更近的位置。这样做的目的不是单纯增加容量，而是减少数据搬运时间，让 GPU 在训练和推理中少等待。

Micron HBM3E 的 24GB 8-high cube 与超过 1.2TB/s bandwidth体现了 HBM 的核心价值：每个 HBM 堆栈提供极高带宽，多个堆栈再围绕 GPU 形成高吞吐内存系统。到 Blackwell Ultra，NVIDIA 技术博客提到每颗 GPU 288GB HBM3e 与 8TB/s bandwidth，其重点正是让更大模型、更长上下文和更高并发推理运行在 GPU 近端内存中。

为什么 HBM 更贴近 GPU 价值链？

HBM 离 GPU 最近，价格也更容易受到 AI 加速器需求拉动。它不是独立卖给普通消费电子的标准件，而是和 AI GPU、先进封装、晶圆代工、基板、测试和云厂商采购计划强绑定。换句话说，HBM 的需求变化更能反映高端 AI 服务器的真实建设节奏。

Micron 在 2025 财年第三季度提到，HBM revenue nearly 50% sequential growth 与 data center revenue more than doubled year-over-year，这说明 AI 正在把部分存储周期品推向更高价值的服务器和数据中心场景。SK hynix 也表示，12-layer HBM4 samples已交付主要客户，并计划在认证后推进量产准备，这反映 HBM 竞争已经从 HBM3E 进入 HBM4 阶段。

HBM 需求上升通常来自五个方向：

大模型参数规模扩大，需要更高近端容量。
上下文窗口变长，KV cache 占用快速上升。
推理并发增加，显存成为服务能力约束。
MoE、RAG、Agentic AI 增加数据访问压力。
GPU 算力提升后，内存带宽必须同步提高。

小结：GPU 之后先看 HBM，是因为 HBM 直接决定高端 AI GPU 能否释放性能。算力峰值越高，数据搬运压力越大；模型越大、上下文越长、推理并发越高，HBM 的容量和带宽越关键。但 HBM 不是没有风险的单向成长资产。你还需要看客户集中度、先进封装产能、良率、合约价格、技术迭代和扩产节奏。HBM 的弹性来自 AI GPU，风险也来自 AI GPU 采购周期和供给扩张。

AI 训练和 AI 推理分别需要什么存储？

企业级 SSD 与 AI 推理热数据访问需求

AI 训练更需要高吞吐和大容量，AI 推理更需要低延迟、并发和热数据访问。训练阶段要不断读取海量数据集、保存 checkpoint 和中间结果；推理阶段则要处理用户请求、上下文、KV cache、embedding、向量数据库和 RAG 文档检索。

AI 训练看吞吐、容量和稳定供给

训练不是把数据一次性放进 GPU 就结束。预训练需要海量语料、多模态数据和分布式文件系统；微调需要行业数据集和反复实验；大模型训练过程中还要保存 checkpoint，以便故障恢复和版本回滚。这里最关键的指标不是单个硬盘快不快，而是整个存储系统能否持续给 GPU 集群供数。

训练阶段常见的存储需求包括：

数据类型	主要用途	更关注的指标	相关存储
原始数据集	预训练和清洗	容量、成本、可靠性	HDD、对象存储
清洗后数据	训练输入	吞吐、可扩展性	SSD、分布式文件系统
Checkpoint	故障恢复	写入速度、稳定性	SSD、对象存储
日志和指标	训练监控	持久保存、可追踪	HDD、对象存储
中间结果	实验管理	读写性能、版本管理	SSD、DRAM

AI 推理看低延迟、并发和热数据

推理进入商业化阶段后，存储压力会从“训练前准备数据”转向“运行中不断读写数据”。RAG 要检索企业文档，Agent 要读写工具结果，长上下文模型会产生大量 KV cache，用户请求和输出也会沉淀成日志。WEKA 对 AI memory wall 的解释抓住了关键：当推理所需内存超过 GPU 可用物理内存时，延迟和并发都会受影响。

推理场景下，HBM、DRAM、SSD 和对象存储会形成分层：HBM 保存最紧急的模型运行数据，DRAM 做系统缓存，NVMe SSD 支撑向量库和热数据，HDD 与对象存储保存长期数据。你看到的“AI 应用越多”，背后往往是 token、embedding、用户日志、模型版本和审计记录一起增长。

小结：训练和推理对存储的要求不一样。训练更像大型工程，需要持续、高吞吐、可恢复的数据供给；推理更像在线服务，需要低延迟、高并发和热数据访问。AI 从实验室走向企业生产环境后，存储需求不会停留在训练数据集，而会扩展到向量数据库、RAG 文档库、用户交互日志、模型版本、审计记录和长期数据湖。投资判断也应区分训练驱动和推理驱动，而不是把所有“AI 存储”混在一起。

从 HBM 到 HDD：AI 存储链条如何分层？

AI 存储链条可以按“离 GPU 的距离”分层：越靠近 GPU，越看速度、带宽和延迟；越远离 GPU，越看容量、成本和可靠性。HBM 是最贴近 GPU 的高价值环节，DRAM 和 SSD 支撑服务器内部热数据，Nearline HDD 和对象存储支撑数据中心容量池。

第一层是 GPU 近端的 HBM。它负责模型权重、激活值、KV cache 和高频数据访问，直接影响 token throughput、context length 和 concurrent inference。第二层是服务器内部的 DRAM 与企业级 SSD，它们负责系统缓存、数据预处理、向量检索和高 IOPS。第三层是数据中心容量池，Nearline HDD、对象存储和备份系统保存训练数据、日志、归档和长期数据。

分层	距离 GPU	速度要求	单位容量成本	典型用途
HBM	最近	最高	最高	模型运行、KV cache
DRAM	较近	高	高	系统缓存、预处理
企业级 SSD	中等	较高	中高	向量库、热数据、RAG
Nearline HDD	较远	较低	低	数据湖、备份、训练数据
对象存储	最远	弹性	低	归档、日志、长期留存

这种分层也能解释为什么 HDD 没有被 SSD 完全替代。AI 数据中心需要大量热数据，但更需要海量温数据和冷数据。训练语料、视频、图片、模型版本、日志和备份都不可能全部放在 HBM 或企业级 SSD 里。Seagate 在 2026 财年第三季度披露，收入 31.12 亿美元与 GAAP 毛利率 46.5%，高容量硬盘需求正在反映到财务表现中。Western Digital 也在 2026 财年第三季度披露，收入 33.37 亿美元与 GAAP gross margin 50.2%，显示云和数据中心存储周期有明显改善。

这里的判断重点不是“SSD 会不会取代 HDD”，而是“哪些数据适合放在哪里”。AI 数据越多，热数据、温数据和冷数据都会增加。SSD 更适合频繁读写、低延迟访问和向量检索；HDD 更适合低成本保存海量容量。两者更多是分层共存，而不是单纯替代。

小结：AI 存储链条的核心规律很简单：离 GPU 越近，速度越重要；离 GPU 越远，容量和成本越重要。HBM 的投资弹性来自 AI GPU 性能释放，企业级 SSD 的弹性来自推理、RAG 和热数据访问，Nearline HDD 的弹性来自数据湖、备份、日志和云厂商容量扩张。你在分析不同公司时，不能只问“是不是 AI 存储股”，还要问它处在存储层级的哪一层、收入受价格影响多大、客户是谁、供给能否持续紧张。

AI 基础设施投资链条应该看哪些指标？

判断 AI 基础设施链条，不能只看新闻里的“AI 需求强劲”。更实用的方式是看三组指标：需求端看云厂商资本开支和 AI workload；供给端看 HBM、NAND、HDD 的产能和良率；财务端看收入增长、毛利率、库存、现金流和客户集中度。

需求端最重要的是 hyperscaler capex。云厂商是否继续扩建 AI 数据中心，决定 GPU、HBM、服务器、SSD、HDD 和网络设备的总需求。训练型支出更集中在 GPU 集群和高吞吐存储，推理型支出更强调成本、延迟、热数据和在线服务效率。你不能只看某家公司说“AI 需求强”，还要看订单是否转化成出货、价格和毛利率。

供给端要分开看。HBM 受 DRAM die、TSV、先进封装、良率和客户认证约束；NAND 受价格周期和企业级 SSD 需求影响；HDD 则要看 HAMR、areal density、nearline exabyte shipment 和长期供货协议。Micron 2025 财年第四季度的Cloud Memory Business Unit revenue 45.43 亿美元与 59% gross margin说明，AI 数据中心需求如果传导到产品组合和价格，盈利弹性会非常明显。

指标	对 HBM 的意义	对 SSD/HDD 的意义	投资解读
云厂商 CapEx	决定 GPU/HBM 采购强度	决定数据中心容量扩张	需求总阀门
HBM 合约	锁定价格和产能	影响普通 DRAM 供给	供需紧张信号
NAND 价格	间接影响 SSD 成本	直接影响企业 SSD 利润	周期拐点
Nearline 出货	间接反映数据增长	直接影响 HDD 厂商收入	容量需求信号
毛利率	反映产品议价权	反映价格与产品结构	利润弹性信号
库存	判断供需错配	判断周期位置	风险提示信号

这里还要加一个容易被忽略的维度：交易成本。你研究 AI 基础设施股票时，除了判断公司基本面，也要知道实际交易成本会影响持仓和调仓体验。美股交易成本通常不只包括佣金，还可能包括平台费、外部机构费、交易活动费等。Biya 美股交易佣金为 0 美元，平台费、外部机构费及其他费用以美股交易费用和订单页面展示为准；相关服务是否可用，取决于用户所在地、身份验证结果、平台规则及适用法律法规。

如果你需要跟踪 AI 存储链条中的美股和港股公司，可以通过Biya关注行情、交易品类和账户成本，也可以用美股信息查询梳理相关标的。费用不是投资收益的决定因素，但在高波动、频繁调仓或小额买入时，会影响真实交易体验。

小结：AI 基础设施投资要从“概念判断”转为“指标验证”。需求端看云厂商 CapEx、AI 服务器出货、推理并发和企业 AI 落地；供给端看 HBM 良率、先进封装、NAND 价格和 HDD 供给纪律；财务端看收入、毛利率、库存、现金流和客户结构。只有当需求真实传导到订单、价格和利润，AI 存储链条的投资逻辑才更扎实。

看好 AI 存储链条时，必须同时看到哪些风险？

看好 AI 存储链条，不代表可以忽视周期和估值。最主要的风险有三类：云厂商资本开支放缓、存储供给扩张导致价格回落、技术架构变化改变需求结构。AI 需求很强，但 DRAM、NAND、HDD 本质上仍带有周期属性。

第一类风险是 AI CapEx 放缓。如果云厂商发现推理收入、算力利用率或电力资源不及预期，资本开支可能阶段性收缩。GPU、HBM、服务器、SSD、HDD 都在同一条基础设施预算链条上，需求强弱会传导到多个环节。短期缺货不能直接等同于长期高景气，尤其在高估值阶段，任何订单节奏变化都可能带来股价波动。

第二类风险是供给扩张。HBM 价格高，会刺激厂商扩产；NAND 和 HDD 涨价，也会改善行业供给意愿。韩国围绕半导体、HBM 和 AI 数据中心推出大规模投资计划，路透社报道的韩国 AI 与芯片投资计划一方面说明战略重要性，另一方面也提醒你关注未来供给扩张后的周期压力。

第三类风险是技术路径变化。模型量化、稀疏化、MoE、CXL memory pooling、KV cache offloading、near-data processing 都可能改变 HBM、DRAM、SSD 和 HDD 的相对需求。软件优化会提升硬件利用率，也可能降低单位推理对硬件的需求。SSD 与 HDD 之间不是简单替代，未来更多是按数据温度和成本分层。

投资者需要避免的误区包括：

把所有存储公司都当成 HBM 受益股。
只看收入增长，不看毛利率和库存。
只看 AI 训练，不看推理商业化节奏。
忽略客户集中和长期合约价格。
把周期性涨价理解成永久成长股逻辑。
只看热门公司，不看估值和现金流。

小结：AI 存储链条是成长逻辑和周期逻辑的叠加，不是低风险单向赛道。HBM 更贴近 GPU 增长，但客户集中、封装产能和技术迭代风险更高；SSD 和 HDD 更受价格周期、库存和供给纪律影响。更稳妥的判断方式，是同时看景气度、供需、估值和财务验证。交易前也应理解平台规则、费用结构和自身风险承受能力，公开市场信息不构成投资建议。

如果你关注 AI 基础设施投资，不必只盯着 GPU 龙头。更完整的观察框架，是把 HBM、DRAM、NAND、企业级 SSD、Nearline HDD、数据中心设备、云厂商资本开支和交易成本放在一起看。你可以先用产业链逻辑筛选方向，再用收入、毛利率、库存和现金流验证景气度。如果所在地区符合相关服务适用条件，也可以通过注册账户进一步了解 Biya 的多资产交易支持。美股、港股和数字货币等服务是否可用，以用户所在地、身份验证结果、平台规则和适用法律法规为准；任何交易决策都应基于个人目标、风险承受能力和完整费用信息。