1-bit 图像生成不再是玄学：PrismML Bonsai Image 如何让 Diffusion 模型跑在 iPhone 上

Mon, 01 Jun 2026 12:23:14 +0800

前几天看到 PrismML 发布了 Bonsai Image 4B，声称可以在 iPhone 上本地跑图像生成，我的第一反应是"又一个宣传噱头"。毕竟图像生成模型动辄几个 GB，Diffusion Transformer 的计算量比文本 LLM 大得多，怎么压缩到手机能跑？

但仔细看了他们的技术方案和社区基准之后，我改了主意。这不是简单的模型量化，而是从训练阶段就用 1-bit 权重做端到端训练——换句话说，模型天生就是"压缩态"的，不是训好之后再硬压。

这和我们之前讨论过的推理优化路线完全不同。量化只是推理阶段的事，但 PrismML 的思路是：让模型在训练时就接受 1-bit 的约束，这样精度损失是渐进的，而不是事后的暴力截断。

从 Bonsai-8B 到 Bonsai Image：一条技术路线的延伸

PrismML 这家公司来头不小——脱胎于 Caltech 研究，拿了 Khosla Ventures、Cerberus 和 Google 的投资。他们今年 3 月发布的 Bonsai-8B 是全球第一个"商业可行的 1-bit LLM"，整数权重只有 {-1, 0, +1} 三种取值。

用人话说就是：传统模型的每个权重参数是一个 16 位浮点数，占 2 字节。Bonsai 的每个权重只占 1 bit（甚至 ternary 版本约 1.58 bit）。一个 8B 参数模型，FP16 版本要 16 GB 内存，Bonsai-8B 只要 1.15 GB。

这个压缩比有多大？14 倍。在 RTX 4090 上推理速度提升 6.2 倍，能耗降低 4-5 倍。这就是为什么他们敢说"可以在手机上跑"——不是噱头，是真的把模型缩小到了手机内存能装下的程度。

Bonsai Image 4B 延续了同样的技术路线，但对象从文本生成换成了图像生成。基座模型是 Black Forest Labs 的 FLUX.2-klein-4B（一个 4B 参数的 Diffusion Transformer），PrismML 在此基础上做了 1-bit 和 ternary 两种量化版本。

具体怎么做的？

Bonsai Image 提供两个量化变体：

Binary (1-bit)：权重严格为 {-1, +1}，模型最小，适合内存极度受限的设备
Ternary (1.58-bit)：权重为 {-1, 0, +1}，质量更好，是推荐版本

在推理层面，PrismML 没有依赖 llama.cpp 或任何 C/C++ 运行时，而是用了两条技术栈：

Apple Silicon：通过 MLX 框架原生运行，利用 mlx-2bit 格式
NVIDIA GPU：通过 gemlite + HQQ 的低比特 GEMM 内核

一个有意思的社区项目是 OxiBonsai——一个纯 Rust 实现的推理引擎，完全不依赖 C/C++ 运行时。它支持 CPU（SIMD）、Apple Silicon（Metal）和 NVIDIA（CUDA），已经有 156k 行 Rust 代码，4553 个测试通过。这说明 1-bit 推理引擎已经不是实验室玩具，开始有社区在认真做工程化了。

社区基准：和 Qwen3.5 正面对比

最有说服力的数据来自社区基准测试——PrismML-Bonsai-vs-Qwen3.5-Benchmark 在 NVIDIA Jetson Orin 上跑了一系列对比，覆盖 98 个问题、7 个类别（通用知识、数学、编程、历史、逻辑推理、语言理解、波斯语）。

关键数据：

模型	参数	量化	准确率	生成速度 (tok/s)	模型大小
Qwen3.5-27B	26.9B	Q4_K_M	95.7%	9.5	15.6 GiB
Qwen3.5-9B	8.95B	Q4_K_M	90.2%	27.0	5.3 GiB
Qwen3.5-4B	4.21B	Q4_K_M	85.2%	36.7	2.6 GiB
Ternary-Bonsai-8B	8.19B	mlx-2bit	85.0%	15.0	2.1 GiB
Ternary-Bonsai-4B	4.02B	mlx-2bit	83.0%	23.9	1.1 GiB
Bonsai-8B	8.19B	Q1_0	78.9%	46.5	1.1 GiB

注意最后两行。Ternary-Bonsai-8B 只有 2.1 GiB，准确率和 2.6 GiB 的 Qwen3.5-4B 基本持平（85.0% vs 85.2%）。而 Bonsai-8B 的 Q1_0 格式只有 1.1 GiB，生成速度达到 46.5 tok/s，是所有 8B 级模型里最快的。

换一个角度看"效率密度"——准确率除以模型大小：

模型	准确率/GiB
Ternary-Bonsai-1.7B	1.44
Qwen3.5-0.8B	1.13
Ternary-Bonsai-4B	0.79
Bonsai-8B	0.72
Qwen3.5-4B	0.55
Qwen3.5-9B	0.43

Ternary-Bonsai-1.7B 只有 462 MiB，但效率密度是所有模型里最高的。这就是 1-bit 量化的核心价值：在有限硬件上挤出最多的智能。

说白了就是——Bonsai 不是在和 27B 模型比绝对性能，而是在"每 GB 内存能买到多少智能"这个维度上碾压。

图像生成的特殊挑战

文本模型压缩到 1-bit 已经很了不起了，但图像生成是另一回事。

Diffusion Transformer 要做的工作远比文本 LLM 复杂：它需要在多个去噪步骤中逐步从噪声中"雕琢"出图像，每一步都涉及大量的矩阵运算。传统图像生成模型（如 SDXL 3.5B 参数）需要 GPU 加速才能勉强运行，手机上基本是奢望。

Bonsai Image 4B 的关键创新是把 1-bit 量化应用到了 Diffusion Transformer 的全部层——不只是 MLP，还包括注意力投影层。这使得 Diffusion Transformer 的体积缩小了最高 8 倍，推理速度提升最高 5.6 倍。

HN 评论里有人指出一个值得注意的细节：Bonsai Image 的文本编码器仍然是 4-bit 量化的，不是 1-bit。这意味着整个管线并不是纯 1-bit——文本理解部分还是用的传统量化方式，只有图像生成的 Diffusion Transformer 部分是 1-bit。这其实很合理：文本编码器的参数量相对较小，压缩它带来的收益有限，但对理解质量影响很大。

也有人质疑"第一个在 iPhone 上跑的图像模型"的说法——SDXL 3.5B 参数，理论上也能在 iPhone 13 Pro 上跑。但 PrismML 的意思是 Bonsai Image 是第一个专门为移动端优化的 1-bit 图像生成模型，而不是简单地把桌面模型硬塞进手机。

怎么跑起来？

PrismML 提供了相当友好的部署流程。在 macOS 上：

git clone https://github.com/PrismML-Eng/Bonsai-Image-Demo
cd Bonsai-Image-Demo
./setup.sh
./scripts/generate.sh --prompt "An icy Bonsai tree in a rainy forest"

setup.sh 会自动检测平台，macOS 走 MLX 路径，Linux 走 gemlite/HQQ 路径。Windows 也有 PowerShell 脚本支持，不需要 WSL2。

更轻量的体验方式是直接用 HuggingFace Space 或 Google Colab。

这对边缘 AI 意味着什么？

我们之前讨论过 AI 芯片的内存瓶颈——HBM 的成本越来越高，数据中心的能耗压力越来越大。1-bit 量化提供了一条完全不同的思路：与其堆更多更快的内存，不如把模型本身压缩到极致。

这对几个场景有直接意义：

端侧推理：手机、树莓派、Jetson 这类设备内存有限，1-bit 模型可以把原本需要云端的推理任务拉到本地。图像生成只是开始，视频生成、3D 生成都有可能。

隐私敏感场景：本地推理意味着数据不出设备。这对医疗影像、安防监控等场景有天然吸引力。

成本控制：我们之前分析过本地 LLM 推理的成本优势，1-bit 量化把这个优势放大了一个数量级。

当然，1-bit 量化也有明显的局限。社区基准已经表明，Bonsai-8B 在绝对准确率上和 Qwen3.5-27B 差了将近 17 个百分点。压缩是有代价的——复杂推理、长上下文理解、边缘案例处理，这些任务对权重精度的要求更高，1-bit 模型在这些场景下会明显吃力。

对图像生成来说，质量损失可能更直观。你压缩文本模型，输出可能只是措辞不够精准；但压缩图像模型，可能直接出现视觉伪影、细节丢失、风格偏移。PrismML 的白皮书声称"保持了强视觉质量"，但 HN 评论里也有人反馈 WebGL demo 在手机上崩溃、iOS-only 的 demo 限制了受众。

工程判断

如果你在做边缘 AI 部署，我的建议是：

Ternary-Bonsai 是首选。1.58-bit 的 ternary 版本在质量-大小平衡上明显优于纯 1-bit binary 版本。多出来的 0.58 bit 换来的准确率提升非常可观。
不要指望替代云端大模型。Bonsai 的定位是"在有限硬件上提供可用的智能"，而不是和 GPT-4 或 Flux Pro 比绝对质量。用对场景很关键。
关注 OxiBonsai 这样的社区项目。纯 Rust 推理引擎意味着更好的跨平台一致性和更少的 C/C++ 依赖问题。如果 PrismML 的官方工具链不能满足你的需求，OxiBonsai 值得一试。
图像生成目前还处于早期。Bonsai Image 4B 刚发布，社区工具链（ComfyUI 集成、Ollama 支持等）还在路上。生产环境部署建议等社区验证一轮再上。

1-bit 量化从文本扩展到图像，这不是一个孤立事件。它代表的是 AI 推理从"堆算力"到"极致压缩"的范式转移。在 AI 芯片越来越贵、能耗越来越高的今天，这条路线的工程价值只会越来越大。

Image Generation on Hypho - AI Agent 技术博客