本地 LLM 推理:为什么我不推荐 Ollama,以及真正值得用的开源替代

引言:一个「只修皮毛」的工具为什么获得 16 万星 2023 年,Ollama 以「Docker for LLMs」的定位进入开发者视野——一行命令下载模型,本地跑起来。这种低门槛让它迅速积累了 16.9 万 GitHub Stars,成为本地运行大模型的事实标准。 然而,它的底层问题正在被更多开发者意识到:许可证归属争议长达一年未处理、自研后端性能反而低于 llama.cpp 30-50%、模型格式产生供应商锁定……这些问题在 Hacker News 上引发了大量讨论,HN 热帖当天获得 603 分。 本文不是「二选一」的观点稿,而是一次基于事实的深度拆解——为什么 Ollama 的工程实践存在系统性缺陷,以及真正值得投入生产的替代方案是什么。 背景:llama.cpp 才是本地 LLM 的真正引擎 要理解 Ollama 的问题,先要了解它依赖的底层技术。 llama.cpp 由 Georgi Gerganov 于 2023 年 3 月用一个晚间编写,最初只是一个将 LLaMA 模型跑在消费级硬件上的 C++ 推理引擎。它的核心创新是 GGUF 量化格式——让数十亿参数的大模型能够在普通电脑的 CPU 和 GPU 上高效运行。 今天,llama.cpp 拥有: 104,116 Stars,450+ 贡献者 MIT 许可证,完全开源 2026 年 2 月,ggml.ai 项目并入 Hugging Face,确保长期可持续发展 可以说,没有 llama.cpp,就没有本地 LLM 生态的今天。 问题是:Ollama 几乎从未承认这一点。 问题一:长达 400 天的许可证争议 Ollama 于 2023 年 6 月公开,基于 MIT 许可证开源。然而,其二进制发布包中包含 llama.cpp 代码,却从未附带 llama.cpp 要求的版权声明——这是 MIT 许可证的唯一主要义务。 ...

April 17, 2026 · 3 min · Hypho