前几天看到 PrismML 发布了 Bonsai Image 4B,声称可以在 iPhone 上本地跑图像生成,我的第一反应是"又一个宣传噱头"。毕竟图像生成模型动辄几个 GB,Diffusion Transformer 的计算量比文本 LLM 大得多,怎么压缩到手机能跑?

但仔细看了他们的技术方案和社区基准之后,我改了主意。这不是简单的模型量化,而是从训练阶段就用 1-bit 权重做端到端训练——换句话说,模型天生就是"压缩态"的,不是训好之后再硬压。

这和我们之前讨论过的推理优化路线完全不同。量化只是推理阶段的事,但 PrismML 的思路是:让模型在训练时就接受 1-bit 的约束,这样精度损失是渐进的,而不是事后的暴力截断。

从 Bonsai-8B 到 Bonsai Image:一条技术路线的延伸

PrismML 这家公司来头不小——脱胎于 Caltech 研究,拿了 Khosla Ventures、Cerberus 和 Google 的投资。他们今年 3 月发布的 Bonsai-8B 是全球第一个"商业可行的 1-bit LLM",整数权重只有 {-1, 0, +1} 三种取值。

用人话说就是:传统模型的每个权重参数是一个 16 位浮点数,占 2 字节。Bonsai 的每个权重只占 1 bit(甚至 ternary 版本约 1.58 bit)。一个 8B 参数模型,FP16 版本要 16 GB 内存,Bonsai-8B 只要 1.15 GB

这个压缩比有多大?14 倍。在 RTX 4090 上推理速度提升 6.2 倍,能耗降低 4-5 倍。这就是为什么他们敢说"可以在手机上跑"——不是噱头,是真的把模型缩小到了手机内存能装下的程度。

Bonsai Image 4B 延续了同样的技术路线,但对象从文本生成换成了图像生成。基座模型是 Black Forest Labs 的 FLUX.2-klein-4B(一个 4B 参数的 Diffusion Transformer),PrismML 在此基础上做了 1-bit 和 ternary 两种量化版本。

具体怎么做的?

Bonsai Image 提供两个量化变体:

  • Binary (1-bit):权重严格为 {-1, +1},模型最小,适合内存极度受限的设备
  • Ternary (1.58-bit):权重为 {-1, 0, +1},质量更好,是推荐版本

在推理层面,PrismML 没有依赖 llama.cpp 或任何 C/C++ 运行时,而是用了两条技术栈:

  • Apple Silicon:通过 MLX 框架原生运行,利用 mlx-2bit 格式
  • NVIDIA GPU:通过 gemlite + HQQ 的低比特 GEMM 内核

一个有意思的社区项目是 OxiBonsai——一个纯 Rust 实现的推理引擎,完全不依赖 C/C++ 运行时。它支持 CPU(SIMD)、Apple Silicon(Metal)和 NVIDIA(CUDA),已经有 156k 行 Rust 代码,4553 个测试通过。这说明 1-bit 推理引擎已经不是实验室玩具,开始有社区在认真做工程化了。

社区基准:和 Qwen3.5 正面对比

最有说服力的数据来自社区基准测试——PrismML-Bonsai-vs-Qwen3.5-Benchmark 在 NVIDIA Jetson Orin 上跑了一系列对比,覆盖 98 个问题、7 个类别(通用知识、数学、编程、历史、逻辑推理、语言理解、波斯语)。

关键数据:

模型参数量化准确率生成速度 (tok/s)模型大小
Qwen3.5-27B26.9BQ4_K_M95.7%9.515.6 GiB
Qwen3.5-9B8.95BQ4_K_M90.2%27.05.3 GiB
Qwen3.5-4B4.21BQ4_K_M85.2%36.72.6 GiB
Ternary-Bonsai-8B8.19Bmlx-2bit85.0%15.02.1 GiB
Ternary-Bonsai-4B4.02Bmlx-2bit83.0%23.91.1 GiB
Bonsai-8B8.19BQ1_078.9%46.51.1 GiB

注意最后两行。Ternary-Bonsai-8B 只有 2.1 GiB,准确率和 2.6 GiB 的 Qwen3.5-4B 基本持平(85.0% vs 85.2%)。而 Bonsai-8B 的 Q1_0 格式只有 1.1 GiB,生成速度达到 46.5 tok/s,是所有 8B 级模型里最快的。

换一个角度看"效率密度"——准确率除以模型大小:

模型准确率/GiB
Ternary-Bonsai-1.7B1.44
Qwen3.5-0.8B1.13
Ternary-Bonsai-4B0.79
Bonsai-8B0.72
Qwen3.5-4B0.55
Qwen3.5-9B0.43

Ternary-Bonsai-1.7B 只有 462 MiB,但效率密度是所有模型里最高的。这就是 1-bit 量化的核心价值:在有限硬件上挤出最多的智能

说白了就是——Bonsai 不是在和 27B 模型比绝对性能,而是在"每 GB 内存能买到多少智能"这个维度上碾压。

图像生成的特殊挑战

文本模型压缩到 1-bit 已经很了不起了,但图像生成是另一回事。

Diffusion Transformer 要做的工作远比文本 LLM 复杂:它需要在多个去噪步骤中逐步从噪声中"雕琢"出图像,每一步都涉及大量的矩阵运算。传统图像生成模型(如 SDXL 3.5B 参数)需要 GPU 加速才能勉强运行,手机上基本是奢望。

Bonsai Image 4B 的关键创新是把 1-bit 量化应用到了 Diffusion Transformer 的全部层——不只是 MLP,还包括注意力投影层。这使得 Diffusion Transformer 的体积缩小了最高 8 倍,推理速度提升最高 5.6 倍。

HN 评论里有人指出一个值得注意的细节:Bonsai Image 的文本编码器仍然是 4-bit 量化的,不是 1-bit。这意味着整个管线并不是纯 1-bit——文本理解部分还是用的传统量化方式,只有图像生成的 Diffusion Transformer 部分是 1-bit。这其实很合理:文本编码器的参数量相对较小,压缩它带来的收益有限,但对理解质量影响很大。

也有人质疑"第一个在 iPhone 上跑的图像模型"的说法——SDXL 3.5B 参数,理论上也能在 iPhone 13 Pro 上跑。但 PrismML 的意思是 Bonsai Image 是第一个专门为移动端优化的 1-bit 图像生成模型,而不是简单地把桌面模型硬塞进手机。

怎么跑起来?

PrismML 提供了相当友好的部署流程。在 macOS 上:

git clone https://github.com/PrismML-Eng/Bonsai-Image-Demo
cd Bonsai-Image-Demo
./setup.sh
./scripts/generate.sh --prompt "An icy Bonsai tree in a rainy forest"

setup.sh 会自动检测平台,macOS 走 MLX 路径,Linux 走 gemlite/HQQ 路径。Windows 也有 PowerShell 脚本支持,不需要 WSL2。

更轻量的体验方式是直接用 HuggingFace SpaceGoogle Colab

这对边缘 AI 意味着什么?

我们之前讨论过 AI 芯片的内存瓶颈——HBM 的成本越来越高,数据中心的能耗压力越来越大。1-bit 量化提供了一条完全不同的思路:与其堆更多更快的内存,不如把模型本身压缩到极致。

这对几个场景有直接意义:

端侧推理:手机、树莓派、Jetson 这类设备内存有限,1-bit 模型可以把原本需要云端的推理任务拉到本地。图像生成只是开始,视频生成、3D 生成都有可能。

隐私敏感场景:本地推理意味着数据不出设备。这对医疗影像、安防监控等场景有天然吸引力。

成本控制:我们之前分析过 本地 LLM 推理的成本优势,1-bit 量化把这个优势放大了一个数量级。

当然,1-bit 量化也有明显的局限。社区基准已经表明,Bonsai-8B 在绝对准确率上和 Qwen3.5-27B 差了将近 17 个百分点。压缩是有代价的——复杂推理、长上下文理解、边缘案例处理,这些任务对权重精度的要求更高,1-bit 模型在这些场景下会明显吃力。

对图像生成来说,质量损失可能更直观。你压缩文本模型,输出可能只是措辞不够精准;但压缩图像模型,可能直接出现视觉伪影、细节丢失、风格偏移。PrismML 的白皮书声称"保持了强视觉质量",但 HN 评论里也有人反馈 WebGL demo 在手机上崩溃、iOS-only 的 demo 限制了受众。

工程判断

如果你在做边缘 AI 部署,我的建议是:

  1. Ternary-Bonsai 是首选。1.58-bit 的 ternary 版本在质量-大小平衡上明显优于纯 1-bit binary 版本。多出来的 0.58 bit 换来的准确率提升非常可观。

  2. 不要指望替代云端大模型。Bonsai 的定位是"在有限硬件上提供可用的智能",而不是和 GPT-4 或 Flux Pro 比绝对质量。用对场景很关键。

  3. 关注 OxiBonsai 这样的社区项目。纯 Rust 推理引擎意味着更好的跨平台一致性和更少的 C/C++ 依赖问题。如果 PrismML 的官方工具链不能满足你的需求,OxiBonsai 值得一试。

  4. 图像生成目前还处于早期。Bonsai Image 4B 刚发布,社区工具链(ComfyUI 集成、Ollama 支持等)还在路上。生产环境部署建议等社区验证一轮再上。

1-bit 量化从文本扩展到图像,这不是一个孤立事件。它代表的是 AI 推理从"堆算力"到"极致压缩"的范式转移。在 AI 芯片越来越贵、能耗越来越高的今天,这条路线的工程价值只会越来越大。