本地 LLM 推理引擎之争:为什么 llama.cpp 远比 Ollama 值得选择
真实案例引入:一次生产事故揭开的盖子 2025 年中,某团队的 AI 编码助手在凌晨两点突然崩溃——他们在 Ollama 上跑的好好的 GPT-OSS 20B 模型突然报 GGML tensor type 不支持的错误。同一模型,在 llama.cpp 上运行完全正常。 这不是孤例。2025 年 GitHub 上关于 Ollama 的 issue 爆发式增长:#3185(许可证问题,400 天无回应)、结构化输出失效、视觉模型崩溃、多版本 GGML assertion crash。社区反复报告同一个事实:Ollama 自 2025 年中从 llama.cpp 后端切换到自研 ggml 分支后,引入了 llama.cpp 早已解决的 bug。 这场崩溃的根源,要从 Ollama 的诞生说起。 背景:Ollama 的起源与商业模式 Ollama 由 Jeffrey Morgan 和 Michael Chiang(曾主导 Docker GUI 工具 Kitematic)于 2021 年创办,入选 Y Combinator Winter 2021,2023 年正式公开。核心卖点是"Docker for LLMs"——一条命令下载运行模型。 然而,Ollama 的全部推理能力来自 llama.cpp:Georgi Gerganov 于 2023 年 3 月用一晚上 hack 出来的 C++ 推理引擎,让 LLaMA 模型首次能在消费级笔记本上运行。llama.cpp 如今 GitHub 104,280 stars,450+ 贡献者,是几乎所有 GGUF 工具的底层依赖。 ...