LLM Inference

引言：一个「只修皮毛」的工具为什么获得 16 万星 2023 年，Ollama 以「Docker for LLMs」的定位进入开发者视野——一行命令下载模型，本地跑起来。这种低门槛让它迅速积累了 16.9 万 GitHub Stars，成为本地运行大模型的事实标准。然而，它的底层问题正在被更多开发者意识到：许可证归属争议长达一年未处理、自研后端性能反而低于 llama.cpp 30-50%、模型格式产生供应商锁定……这些问题在 Hacker News 上引发了大量讨论，HN 热帖当天获得 603 分。本文不是「二选一」的观点稿，而是一次基于事实的深度拆解——为什么 Ollama 的工程实践存在系统性缺陷，以及真正值得投入生产的替代方案是什么。背景：llama.cpp 才是本地 LLM 的真正引擎要理解 Ollama 的问题，先要了解它依赖的底层技术。 llama.cpp 由 Georgi Gerganov 于 2023 年 3 月用一个晚间编写，最初只是一个将 LLaMA 模型跑在消费级硬件上的 C++ 推理引擎。它的核心创新是 GGUF 量化格式——让数十亿参数的大模型能够在普通电脑的 CPU 和 GPU 上高效运行。今天，llama.cpp 拥有： 104,116 Stars，450+ 贡献者 MIT 许可证，完全开源 2026 年 2 月，ggml.ai 项目并入 Hugging Face，确保长期可持续发展可以说，没有 llama.cpp，就没有本地 LLM 生态的今天。问题是：Ollama 几乎从未承认这一点。问题一：长达 400 天的许可证争议 Ollama 于 2023 年 6 月公开，基于 MIT 许可证开源。然而，其二进制发布包中包含 llama.cpp 代码，却从未附带 llama.cpp 要求的版权声明——这是 MIT 许可证的唯一主要义务。 ...