AI Infrastructure

AI 芯片为什么越来越像内存生意？从 HBM 成本看 LLM 推理的真正瓶颈

如果你还在用“这张卡有多少 TFLOPS”来判断一套 LLM 推理系统值不值得买，我建议先停一下。这不是说算力不重要。训练大模型、跑高吞吐推理，当然离不开矩阵乘法能力。但最近 Hacker News 上一篇 Epoch AI 的芯片成本拆解很值得看：他们估算，在 Nvidia、AMD、Google、Amazon 等 AI 芯片的组件成本里，高带宽内存 HBM 的占比已经从 2024 年一季度的 52% 上升到 2025 年四季度的 63%。也就是说，今天一颗 AI 加速器越来越不像“纯算力商品”，反而更像一块被昂贵内存包围的计算核心。这个变化对做应用的人也有直接影响。你在云上选 H100/H200，或者在本地纠结 4090、Mac Studio、工作站多卡，并不是在买一个抽象的“AI 能力”。你买的是：模型权重能不能放下，KV cache 能不能撑住上下文，batch size 能不能拉起来，以及 token 流水线会不会被内存带宽卡死。说白了，LLM 推理的很多瓶颈，最后都会变成内存问题。 HBM 成本占比上升，说明了什么？ Epoch AI 这篇文章的核心数字很简单：HBM 在 AI 芯片组件成本中的占比，从 52% 增长到 63%；同时 logic dies 大约维持在 13%，先进封装和其他辅助组件占比下降。这个结论不是单一芯片报价，而是按生产量加权估算出来的行业平均值。我不建议把这个数字理解成“GPU 厂商利润被内存厂吃掉了”这么简单。更有用的读法是：产业链正在用真金白银投票，承认 AI 工作负载对内存系统的饥渴程度越来越高。为什么？因为 LLM 不是只做一次矩阵乘法就结束。模型推理至少有两类阶段：prefill 和 decode。prefill 阶段要把提示词一次性喂进去，计算密度相对高；decode 阶段则是一个 token 一个 token 往外吐，每一步都要读模型权重，还要读写不断增长的 KV cache。上下文越长、并发越高，显存容量和带宽压力越明显。 ...

Multi-Stream LLM：为什么单线程聊天格式正在拖累 AI Agent？

我越来越觉得，很多 AI Agent 的问题不在“模型还不够聪明”，而在我们把它们塞进了一个很别扭的接口里：一条聊天消息进来，一条聊天消息出去，中间所有思考、工具调用、观察结果、用户反馈，都被挤在同一条时间线上。这件事平时不明显。你让模型改一段代码、总结一篇文章，它慢一点、啰嗦一点，问题不大。但一旦进入真正的 Agent 场景，比如浏览器操作、长时间代码修改、后台任务、多人协作，它就开始露馅：模型正在“思考”时没法同时接收新信息，正在“输出”时没法真正读环境变化，正在等工具结果时也没法继续做别的规划。说白了就是：我们想要一个能并行工作的智能系统，却还在用单线程聊天窗口来驱动它。最近 HN 上有一篇论文讨论的正是这个问题：Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs。它的分数不算特别夸张，但我觉得比很多“又一个 Agent 框架”更值得写。因为它不是在 prompt 外面再包一层流程图，而是在问一个更底层的问题：LLM 的交互格式，是否已经成为 Agent 能力的瓶颈？ HN 原帖标题也很直接：Multi-Stream LLMs: new paper on parallelizing/separating prompts, thinking, I/O。这不是一个已经成熟可用的工程框架，更像是一份架构提案。但它戳中了生产级 Agent 的一个痛点。当前 Agent 最大的隐性假设：所有事情都必须排队今天大多数 Agent 系统，本质上还是 ChatGPT 时代的消息协议： system message 定规则； user message 给任务； assistant message 生成回答或工具调用； tool message 把结果塞回上下文； assistant 再继续。 OpenAI 的 Agents SDK 已经把 handoff、guardrails、tracing、tool calling 封装得很清楚；Anthropic 的 Computer Use 也让 Claude 可以观察屏幕、点击、输入、等待环境变化；MCP 则通过 Model Context Protocol 把外部工具和数据源标准化成可连接的上下文。 ...

DeepSeek V4 Flash 本地推理：ds4.c 的窄引擎路线值得跟吗？

如果你已经在本地跑过大模型，应该很熟悉这个循环：先等通用推理框架支持新模型，再等量化格式稳定，再等各种 wrapper 把 API、工具调用、流式输出补齐。等一切能用时，下一代模型又来了。所以我看到 Hacker News 上 DeepSeek 4 Flash local inference engine for Metal 这条讨论时，第一反应不是“又一个本地 LLM 项目”，而是：它把通用框架的路线反过来了。 ds4.c 不是一个新的 llama.cpp 替代品，也不是 Ollama 那种“模型管理 + 服务封装”。README 开头就把边界画得很死：它是一个只服务 DeepSeek V4 Flash 的原生推理引擎，主路径是 DeepSeek V4 Flash 专用的 Metal graph executor、DS4 专用加载器、prompt rendering、KV state 和 server API glue。换成人话说，它不是想做“什么模型都能跑”，而是想把一个特定模型在 Apple Silicon 上榨干。坦白说，我挺喜欢这种不讨好所有人的设计。因为本地推理这件事，很多时候不是缺一个更漂亮的客户端，而是缺一条足够明确的工程假设。 “窄引擎”到底在赌什么通用推理框架的优势很明显：模型覆盖广、社区大、格式生态成熟。比如 llama.cpp 已经是 GGUF 世界的事实底座，GitHub API 显示它仍在高频更新，star 超过 10 万。Hypho 之前写过本地 LLM 推理引擎之争，核心判断也是：如果你要严肃做本地部署，底层引擎的透明度和社区活跃度比“安装是否一行命令”更重要。但通用性有代价。一个框架要支持几十种架构，就很难为某个模型的奇怪结构做激进假设。ds4.c 选择了另一边：它接受自己只能跑 DeepSeek V4 Flash，换来对这个模型的深度适配。项目 README 里列出的几个卖点很有代表性：DeepSeek V4 Flash 的 active parameters 更少；thinking 模式下推理段落更短；上下文窗口达到 1M tokens；KV cache 可以高度压缩并持久化到磁盘；2-bit 量化在特定 MoE 专家上效果可接受。 ...

Gemma 4 的多 token 预测：LLM 推理加速不该只盯着量化

如果你最近还在把“LLM 推理优化”等同于量化，我建议停一下。量化当然重要，尤其是本地部署和消费级 GPU 场景。但 Google 刚发的 Gemma 4 多 token 预测（Multi-Token Prediction, MTP）让我更确信一件事：下一轮推理加速的主战场，不只是在“把模型压小”，而是在减少大模型被调用的次数。 Google 在官方博客里说，Gemma 4 通过 MTP drafters 在推理阶段最高可以做到 up to 3x faster。这个数字本身很抓眼球，但我更关心它背后的工程含义：如果草稿器能一次猜中多个后续 token，大模型就不必老老实实一个 token 一个 token 地跑完整前向传播。说白了就是：以前是大模型每吐一个字都要“亲自审批”；现在是小模型先写一小段，大模型批量盖章。为什么“一个 token 一次前向”这么浪费自回归 LLM 的默认解码方式很朴素：给定上下文，预测下一个 token；把这个 token 拼回上下文，再预测下一个。这个循环看起来合理，但对硬件很不友好。每生成一个 token，模型都要访问大量权重。对于 27B、70B 这种规模，瓶颈往往不是矩阵乘法算不动，而是显存带宽和调度开销被小步循环吃掉。你可以把它理解成：GPU 明明适合一次搬一大车货，结果我们让它每次只送一个快递。这也是为什么我之前写 DFlash + DDTree 投机解码时，最看重的不是某个 benchmark 数字，而是“平均接受长度”。只要一次验证能接受更多 token，大模型前向次数就会下降，吞吐自然上来。 Gemma 4 的 MTP 走的是同一条大方向，但实现路径更靠近模型训练本身。传统 speculative decoding 通常需要一个独立的小 draft model。经典论文 Speculative Sampling 的思路就是：小模型先生成候选，大模型并行验证，最后用修正过的采样过程保证输出分布不变。这套方法很漂亮，但工程上有两个麻烦：你要维护两个模型，还要处理 tokenizer、KV cache、调度和显存布局。 MTP 的反直觉之处在于，它不一定非要靠“另一个完整小模型”来猜。Meta 的论文 Better & Faster Large Language Models via Multi-token Prediction 提出，在训练时让模型不只预测下一个 token，而是同时预测未来多个 token。技术上可以看成在共享 trunk 上接多个输出 head，训练目标从“只看一步”扩展到“顺手看几步”。 ...

本地 LLM 推理：为什么我不推荐 Ollama，以及真正值得用的开源替代

引言：一个「只修皮毛」的工具为什么获得 16 万星 2023 年，Ollama 以「Docker for LLMs」的定位进入开发者视野——一行命令下载模型，本地跑起来。这种低门槛让它迅速积累了 16.9 万 GitHub Stars，成为本地运行大模型的事实标准。然而，它的底层问题正在被更多开发者意识到：许可证归属争议长达一年未处理、自研后端性能反而低于 llama.cpp 30-50%、模型格式产生供应商锁定……这些问题在 Hacker News 上引发了大量讨论，HN 热帖当天获得 603 分。本文不是「二选一」的观点稿，而是一次基于事实的深度拆解——为什么 Ollama 的工程实践存在系统性缺陷，以及真正值得投入生产的替代方案是什么。背景：llama.cpp 才是本地 LLM 的真正引擎要理解 Ollama 的问题，先要了解它依赖的底层技术。 llama.cpp 由 Georgi Gerganov 于 2023 年 3 月用一个晚间编写，最初只是一个将 LLaMA 模型跑在消费级硬件上的 C++ 推理引擎。它的核心创新是 GGUF 量化格式——让数十亿参数的大模型能够在普通电脑的 CPU 和 GPU 上高效运行。今天，llama.cpp 拥有： 104,116 Stars，450+ 贡献者 MIT 许可证，完全开源 2026 年 2 月，ggml.ai 项目并入 Hugging Face，确保长期可持续发展可以说，没有 llama.cpp，就没有本地 LLM 生态的今天。问题是：Ollama 几乎从未承认这一点。问题一：长达 400 天的许可证争议 Ollama 于 2023 年 6 月公开，基于 MIT 许可证开源。然而，其二进制发布包中包含 llama.cpp 代码，却从未附带 llama.cpp 要求的版权声明——这是 MIT 许可证的唯一主要义务。 ...