AI 芯片为什么越来越像内存生意?从 HBM 成本看 LLM 推理的真正瓶颈

如果你还在用“这张卡有多少 TFLOPS”来判断一套 LLM 推理系统值不值得买,我建议先停一下。 这不是说算力不重要。训练大模型、跑高吞吐推理,当然离不开矩阵乘法能力。但最近 Hacker News 上一篇 Epoch AI 的芯片成本拆解很值得看:他们估算,在 Nvidia、AMD、Google、Amazon 等 AI 芯片的组件成本里,高带宽内存 HBM 的占比已经从 2024 年一季度的 52% 上升到 2025 年四季度的 63%。 也就是说,今天一颗 AI 加速器越来越不像“纯算力商品”,反而更像一块被昂贵内存包围的计算核心。 这个变化对做应用的人也有直接影响。你在云上选 H100/H200,或者在本地纠结 4090、Mac Studio、工作站多卡,并不是在买一个抽象的“AI 能力”。你买的是:模型权重能不能放下,KV cache 能不能撑住上下文,batch size 能不能拉起来,以及 token 流水线会不会被内存带宽卡死。 说白了,LLM 推理的很多瓶颈,最后都会变成内存问题。 HBM 成本占比上升,说明了什么? Epoch AI 这篇文章的核心数字很简单:HBM 在 AI 芯片组件成本中的占比,从 52% 增长到 63%;同时 logic dies 大约维持在 13%,先进封装和其他辅助组件占比下降。这个结论不是单一芯片报价,而是按生产量加权估算出来的行业平均值。 我不建议把这个数字理解成“GPU 厂商利润被内存厂吃掉了”这么简单。更有用的读法是:产业链正在用真金白银投票,承认 AI 工作负载对内存系统的饥渴程度越来越高。 为什么?因为 LLM 不是只做一次矩阵乘法就结束。 模型推理至少有两类阶段:prefill 和 decode。prefill 阶段要把提示词一次性喂进去,计算密度相对高;decode 阶段则是一个 token 一个 token 往外吐,每一步都要读模型权重,还要读写不断增长的 KV cache。上下文越长、并发越高,显存容量和带宽压力越明显。 ...

May 25, 2026 · 2 min · Hypho