AI 芯片为什么越来越像内存生意?从 HBM 成本看 LLM 推理的真正瓶颈

如果你还在用“这张卡有多少 TFLOPS”来判断一套 LLM 推理系统值不值得买,我建议先停一下。 这不是说算力不重要。训练大模型、跑高吞吐推理,当然离不开矩阵乘法能力。但最近 Hacker News 上一篇 Epoch AI 的芯片成本拆解很值得看:他们估算,在 Nvidia、AMD、Google、Amazon 等 AI 芯片的组件成本里,高带宽内存 HBM 的占比已经从 2024 年一季度的 52% 上升到 2025 年四季度的 63%。 也就是说,今天一颗 AI 加速器越来越不像“纯算力商品”,反而更像一块被昂贵内存包围的计算核心。 这个变化对做应用的人也有直接影响。你在云上选 H100/H200,或者在本地纠结 4090、Mac Studio、工作站多卡,并不是在买一个抽象的“AI 能力”。你买的是:模型权重能不能放下,KV cache 能不能撑住上下文,batch size 能不能拉起来,以及 token 流水线会不会被内存带宽卡死。 说白了,LLM 推理的很多瓶颈,最后都会变成内存问题。 HBM 成本占比上升,说明了什么? Epoch AI 这篇文章的核心数字很简单:HBM 在 AI 芯片组件成本中的占比,从 52% 增长到 63%;同时 logic dies 大约维持在 13%,先进封装和其他辅助组件占比下降。这个结论不是单一芯片报价,而是按生产量加权估算出来的行业平均值。 我不建议把这个数字理解成“GPU 厂商利润被内存厂吃掉了”这么简单。更有用的读法是:产业链正在用真金白银投票,承认 AI 工作负载对内存系统的饥渴程度越来越高。 为什么?因为 LLM 不是只做一次矩阵乘法就结束。 模型推理至少有两类阶段:prefill 和 decode。prefill 阶段要把提示词一次性喂进去,计算密度相对高;decode 阶段则是一个 token 一个 token 往外吐,每一步都要读模型权重,还要读写不断增长的 KV cache。上下文越长、并发越高,显存容量和带宽压力越明显。 ...

May 25, 2026 · 2 min · Hypho

Multi-Stream LLM:为什么单线程聊天格式正在拖累 AI Agent?

我越来越觉得,很多 AI Agent 的问题不在“模型还不够聪明”,而在我们把它们塞进了一个很别扭的接口里:一条聊天消息进来,一条聊天消息出去,中间所有思考、工具调用、观察结果、用户反馈,都被挤在同一条时间线上。 这件事平时不明显。你让模型改一段代码、总结一篇文章,它慢一点、啰嗦一点,问题不大。但一旦进入真正的 Agent 场景,比如浏览器操作、长时间代码修改、后台任务、多人协作,它就开始露馅:模型正在“思考”时没法同时接收新信息,正在“输出”时没法真正读环境变化,正在等工具结果时也没法继续做别的规划。 说白了就是:我们想要一个能并行工作的智能系统,却还在用单线程聊天窗口来驱动它。 最近 HN 上有一篇论文讨论的正是这个问题:Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs。它的分数不算特别夸张,但我觉得比很多“又一个 Agent 框架”更值得写。因为它不是在 prompt 外面再包一层流程图,而是在问一个更底层的问题:LLM 的交互格式,是否已经成为 Agent 能力的瓶颈? HN 原帖标题也很直接:Multi-Stream LLMs: new paper on parallelizing/separating prompts, thinking, I/O。这不是一个已经成熟可用的工程框架,更像是一份架构提案。但它戳中了生产级 Agent 的一个痛点。 当前 Agent 最大的隐性假设:所有事情都必须排队 今天大多数 Agent 系统,本质上还是 ChatGPT 时代的消息协议: system message 定规则; user message 给任务; assistant message 生成回答或工具调用; tool message 把结果塞回上下文; assistant 再继续。 OpenAI 的 Agents SDK 已经把 handoff、guardrails、tracing、tool calling 封装得很清楚;Anthropic 的 Computer Use 也让 Claude 可以观察屏幕、点击、输入、等待环境变化;MCP 则通过 Model Context Protocol 把外部工具和数据源标准化成可连接的上下文。 ...

May 22, 2026 · 2 min · Hypho

DeepSeek V4 Flash 本地推理:ds4.c 的窄引擎路线值得跟吗?

如果你已经在本地跑过大模型,应该很熟悉这个循环:先等通用推理框架支持新模型,再等量化格式稳定,再等各种 wrapper 把 API、工具调用、流式输出补齐。等一切能用时,下一代模型又来了。 所以我看到 Hacker News 上 DeepSeek 4 Flash local inference engine for Metal 这条讨论时,第一反应不是“又一个本地 LLM 项目”,而是:它把通用框架的路线反过来了。 ds4.c 不是一个新的 llama.cpp 替代品,也不是 Ollama 那种“模型管理 + 服务封装”。README 开头就把边界画得很死:它是一个只服务 DeepSeek V4 Flash 的原生推理引擎,主路径是 DeepSeek V4 Flash 专用的 Metal graph executor、DS4 专用加载器、prompt rendering、KV state 和 server API glue。换成人话说,它不是想做“什么模型都能跑”,而是想把一个特定模型在 Apple Silicon 上榨干。 坦白说,我挺喜欢这种不讨好所有人的设计。因为本地推理这件事,很多时候不是缺一个更漂亮的客户端,而是缺一条足够明确的工程假设。 “窄引擎”到底在赌什么 通用推理框架的优势很明显:模型覆盖广、社区大、格式生态成熟。比如 llama.cpp 已经是 GGUF 世界的事实底座,GitHub API 显示它仍在高频更新,star 超过 10 万。Hypho 之前写过 本地 LLM 推理引擎之争,核心判断也是:如果你要严肃做本地部署,底层引擎的透明度和社区活跃度比“安装是否一行命令”更重要。 但通用性有代价。 一个框架要支持几十种架构,就很难为某个模型的奇怪结构做激进假设。ds4.c 选择了另一边:它接受自己只能跑 DeepSeek V4 Flash,换来对这个模型的深度适配。项目 README 里列出的几个卖点很有代表性:DeepSeek V4 Flash 的 active parameters 更少;thinking 模式下推理段落更短;上下文窗口达到 1M tokens;KV cache 可以高度压缩并持久化到磁盘;2-bit 量化在特定 MoE 专家上效果可接受。 ...

May 8, 2026 · 2 min · Hypho

Gemma 4 的多 token 预测:LLM 推理加速不该只盯着量化

如果你最近还在把“LLM 推理优化”等同于量化,我建议停一下。 量化当然重要,尤其是本地部署和消费级 GPU 场景。但 Google 刚发的 Gemma 4 多 token 预测(Multi-Token Prediction, MTP)让我更确信一件事:下一轮推理加速的主战场,不只是在“把模型压小”,而是在减少大模型被调用的次数。 Google 在官方博客里说,Gemma 4 通过 MTP drafters 在推理阶段最高可以做到 up to 3x faster。这个数字本身很抓眼球,但我更关心它背后的工程含义:如果草稿器能一次猜中多个后续 token,大模型就不必老老实实一个 token 一个 token 地跑完整前向传播。 说白了就是:以前是大模型每吐一个字都要“亲自审批”;现在是小模型先写一小段,大模型批量盖章。 为什么“一个 token 一次前向”这么浪费 自回归 LLM 的默认解码方式很朴素:给定上下文,预测下一个 token;把这个 token 拼回上下文,再预测下一个。这个循环看起来合理,但对硬件很不友好。 每生成一个 token,模型都要访问大量权重。对于 27B、70B 这种规模,瓶颈往往不是矩阵乘法算不动,而是显存带宽和调度开销被小步循环吃掉。你可以把它理解成:GPU 明明适合一次搬一大车货,结果我们让它每次只送一个快递。 这也是为什么我之前写 DFlash + DDTree 投机解码 时,最看重的不是某个 benchmark 数字,而是“平均接受长度”。只要一次验证能接受更多 token,大模型前向次数就会下降,吞吐自然上来。 Gemma 4 的 MTP 走的是同一条大方向,但实现路径更靠近模型训练本身。 传统 speculative decoding 通常需要一个独立的小 draft model。经典论文 Speculative Sampling 的思路就是:小模型先生成候选,大模型并行验证,最后用修正过的采样过程保证输出分布不变。这套方法很漂亮,但工程上有两个麻烦:你要维护两个模型,还要处理 tokenizer、KV cache、调度和显存布局。 MTP 的反直觉之处在于,它不一定非要靠“另一个完整小模型”来猜。Meta 的论文 Better & Faster Large Language Models via Multi-token Prediction 提出,在训练时让模型不只预测下一个 token,而是同时预测未来多个 token。技术上可以看成在共享 trunk 上接多个输出 head,训练目标从“只看一步”扩展到“顺手看几步”。 ...

May 6, 2026 · 2 min · Hypho

本地 LLM 推理:为什么我不推荐 Ollama,以及真正值得用的开源替代

引言:一个「只修皮毛」的工具为什么获得 16 万星 2023 年,Ollama 以「Docker for LLMs」的定位进入开发者视野——一行命令下载模型,本地跑起来。这种低门槛让它迅速积累了 16.9 万 GitHub Stars,成为本地运行大模型的事实标准。 然而,它的底层问题正在被更多开发者意识到:许可证归属争议长达一年未处理、自研后端性能反而低于 llama.cpp 30-50%、模型格式产生供应商锁定……这些问题在 Hacker News 上引发了大量讨论,HN 热帖当天获得 603 分。 本文不是「二选一」的观点稿,而是一次基于事实的深度拆解——为什么 Ollama 的工程实践存在系统性缺陷,以及真正值得投入生产的替代方案是什么。 背景:llama.cpp 才是本地 LLM 的真正引擎 要理解 Ollama 的问题,先要了解它依赖的底层技术。 llama.cpp 由 Georgi Gerganov 于 2023 年 3 月用一个晚间编写,最初只是一个将 LLaMA 模型跑在消费级硬件上的 C++ 推理引擎。它的核心创新是 GGUF 量化格式——让数十亿参数的大模型能够在普通电脑的 CPU 和 GPU 上高效运行。 今天,llama.cpp 拥有: 104,116 Stars,450+ 贡献者 MIT 许可证,完全开源 2026 年 2 月,ggml.ai 项目并入 Hugging Face,确保长期可持续发展 可以说,没有 llama.cpp,就没有本地 LLM 生态的今天。 问题是:Ollama 几乎从未承认这一点。 问题一:长达 400 天的许可证争议 Ollama 于 2023 年 6 月公开,基于 MIT 许可证开源。然而,其二进制发布包中包含 llama.cpp 代码,却从未附带 llama.cpp 要求的版权声明——这是 MIT 许可证的唯一主要义务。 ...

April 17, 2026 · 3 min · Hypho