前几天看到 PrismML 发布了 Bonsai Image 4B,声称可以在 iPhone 上本地跑图像生成,我的第一反应是"又一个宣传噱头"。毕竟图像生成模型动辄几个 GB,Diffusion Transformer 的计算量比文本 LLM 大得多,怎么压缩到手机能跑?
但仔细看了他们的技术方案和社区基准之后,我改了主意。这不是简单的模型量化,而是从训练阶段就用 1-bit 权重做端到端训练——换句话说,模型天生就是"压缩态"的,不是训好之后再硬压。
这和我们之前讨论过的推理优化路线完全不同。量化只是推理阶段的事,但 PrismML 的思路是:让模型在训练时就接受 1-bit 的约束,这样精度损失是渐进的,而不是事后的暴力截断。
从 Bonsai-8B 到 Bonsai Image:一条技术路线的延伸
PrismML 这家公司来头不小——脱胎于 Caltech 研究,拿了 Khosla Ventures、Cerberus 和 Google 的投资。他们今年 3 月发布的 Bonsai-8B 是全球第一个"商业可行的 1-bit LLM",整数权重只有 {-1, 0, +1} 三种取值。
用人话说就是:传统模型的每个权重参数是一个 16 位浮点数,占 2 字节。Bonsai 的每个权重只占 1 bit(甚至 ternary 版本约 1.58 bit)。一个 8B 参数模型,FP16 版本要 16 GB 内存,Bonsai-8B 只要 1.15 GB。
这个压缩比有多大?14 倍。在 RTX 4090 上推理速度提升 6.2 倍,能耗降低 4-5 倍。这就是为什么他们敢说"可以在手机上跑"——不是噱头,是真的把模型缩小到了手机内存能装下的程度。
Bonsai Image 4B 延续了同样的技术路线,但对象从文本生成换成了图像生成。基座模型是 Black Forest Labs 的 FLUX.2-klein-4B(一个 4B 参数的 Diffusion Transformer),PrismML 在此基础上做了 1-bit 和 ternary 两种量化版本。
具体怎么做的?
Bonsai Image 提供两个量化变体:
- Binary (1-bit):权重严格为 {-1, +1},模型最小,适合内存极度受限的设备
- Ternary (1.58-bit):权重为 {-1, 0, +1},质量更好,是推荐版本
在推理层面,PrismML 没有依赖 llama.cpp 或任何 C/C++ 运行时,而是用了两条技术栈:
一个有意思的社区项目是 OxiBonsai——一个纯 Rust 实现的推理引擎,完全不依赖 C/C++ 运行时。它支持 CPU(SIMD)、Apple Silicon(Metal)和 NVIDIA(CUDA),已经有 156k 行 Rust 代码,4553 个测试通过。这说明 1-bit 推理引擎已经不是实验室玩具,开始有社区在认真做工程化了。
社区基准:和 Qwen3.5 正面对比
最有说服力的数据来自社区基准测试——PrismML-Bonsai-vs-Qwen3.5-Benchmark 在 NVIDIA Jetson Orin 上跑了一系列对比,覆盖 98 个问题、7 个类别(通用知识、数学、编程、历史、逻辑推理、语言理解、波斯语)。
关键数据:
| 模型 | 参数 | 量化 | 准确率 | 生成速度 (tok/s) | 模型大小 |
|---|---|---|---|---|---|
| Qwen3.5-27B | 26.9B | Q4_K_M | 95.7% | 9.5 | 15.6 GiB |
| Qwen3.5-9B | 8.95B | Q4_K_M | 90.2% | 27.0 | 5.3 GiB |
| Qwen3.5-4B | 4.21B | Q4_K_M | 85.2% | 36.7 | 2.6 GiB |
| Ternary-Bonsai-8B | 8.19B | mlx-2bit | 85.0% | 15.0 | 2.1 GiB |
| Ternary-Bonsai-4B | 4.02B | mlx-2bit | 83.0% | 23.9 | 1.1 GiB |
| Bonsai-8B | 8.19B | Q1_0 | 78.9% | 46.5 | 1.1 GiB |
注意最后两行。Ternary-Bonsai-8B 只有 2.1 GiB,准确率和 2.6 GiB 的 Qwen3.5-4B 基本持平(85.0% vs 85.2%)。而 Bonsai-8B 的 Q1_0 格式只有 1.1 GiB,生成速度达到 46.5 tok/s,是所有 8B 级模型里最快的。
换一个角度看"效率密度"——准确率除以模型大小:
| 模型 | 准确率/GiB |
|---|---|
| Ternary-Bonsai-1.7B | 1.44 |
| Qwen3.5-0.8B | 1.13 |
| Ternary-Bonsai-4B | 0.79 |
| Bonsai-8B | 0.72 |
| Qwen3.5-4B | 0.55 |
| Qwen3.5-9B | 0.43 |
Ternary-Bonsai-1.7B 只有 462 MiB,但效率密度是所有模型里最高的。这就是 1-bit 量化的核心价值:在有限硬件上挤出最多的智能。
说白了就是——Bonsai 不是在和 27B 模型比绝对性能,而是在"每 GB 内存能买到多少智能"这个维度上碾压。
图像生成的特殊挑战
文本模型压缩到 1-bit 已经很了不起了,但图像生成是另一回事。
Diffusion Transformer 要做的工作远比文本 LLM 复杂:它需要在多个去噪步骤中逐步从噪声中"雕琢"出图像,每一步都涉及大量的矩阵运算。传统图像生成模型(如 SDXL 3.5B 参数)需要 GPU 加速才能勉强运行,手机上基本是奢望。
Bonsai Image 4B 的关键创新是把 1-bit 量化应用到了 Diffusion Transformer 的全部层——不只是 MLP,还包括注意力投影层。这使得 Diffusion Transformer 的体积缩小了最高 8 倍,推理速度提升最高 5.6 倍。
HN 评论里有人指出一个值得注意的细节:Bonsai Image 的文本编码器仍然是 4-bit 量化的,不是 1-bit。这意味着整个管线并不是纯 1-bit——文本理解部分还是用的传统量化方式,只有图像生成的 Diffusion Transformer 部分是 1-bit。这其实很合理:文本编码器的参数量相对较小,压缩它带来的收益有限,但对理解质量影响很大。
也有人质疑"第一个在 iPhone 上跑的图像模型"的说法——SDXL 3.5B 参数,理论上也能在 iPhone 13 Pro 上跑。但 PrismML 的意思是 Bonsai Image 是第一个专门为移动端优化的 1-bit 图像生成模型,而不是简单地把桌面模型硬塞进手机。
怎么跑起来?
PrismML 提供了相当友好的部署流程。在 macOS 上:
git clone https://github.com/PrismML-Eng/Bonsai-Image-Demo
cd Bonsai-Image-Demo
./setup.sh
./scripts/generate.sh --prompt "An icy Bonsai tree in a rainy forest"
setup.sh 会自动检测平台,macOS 走 MLX 路径,Linux 走 gemlite/HQQ 路径。Windows 也有 PowerShell 脚本支持,不需要 WSL2。
更轻量的体验方式是直接用 HuggingFace Space 或 Google Colab。
这对边缘 AI 意味着什么?
我们之前讨论过 AI 芯片的内存瓶颈——HBM 的成本越来越高,数据中心的能耗压力越来越大。1-bit 量化提供了一条完全不同的思路:与其堆更多更快的内存,不如把模型本身压缩到极致。
这对几个场景有直接意义:
端侧推理:手机、树莓派、Jetson 这类设备内存有限,1-bit 模型可以把原本需要云端的推理任务拉到本地。图像生成只是开始,视频生成、3D 生成都有可能。
隐私敏感场景:本地推理意味着数据不出设备。这对医疗影像、安防监控等场景有天然吸引力。
成本控制:我们之前分析过 本地 LLM 推理的成本优势,1-bit 量化把这个优势放大了一个数量级。
当然,1-bit 量化也有明显的局限。社区基准已经表明,Bonsai-8B 在绝对准确率上和 Qwen3.5-27B 差了将近 17 个百分点。压缩是有代价的——复杂推理、长上下文理解、边缘案例处理,这些任务对权重精度的要求更高,1-bit 模型在这些场景下会明显吃力。
对图像生成来说,质量损失可能更直观。你压缩文本模型,输出可能只是措辞不够精准;但压缩图像模型,可能直接出现视觉伪影、细节丢失、风格偏移。PrismML 的白皮书声称"保持了强视觉质量",但 HN 评论里也有人反馈 WebGL demo 在手机上崩溃、iOS-only 的 demo 限制了受众。
工程判断
如果你在做边缘 AI 部署,我的建议是:
Ternary-Bonsai 是首选。1.58-bit 的 ternary 版本在质量-大小平衡上明显优于纯 1-bit binary 版本。多出来的 0.58 bit 换来的准确率提升非常可观。
不要指望替代云端大模型。Bonsai 的定位是"在有限硬件上提供可用的智能",而不是和 GPT-4 或 Flux Pro 比绝对质量。用对场景很关键。
关注 OxiBonsai 这样的社区项目。纯 Rust 推理引擎意味着更好的跨平台一致性和更少的 C/C++ 依赖问题。如果 PrismML 的官方工具链不能满足你的需求,OxiBonsai 值得一试。
图像生成目前还处于早期。Bonsai Image 4B 刚发布,社区工具链(ComfyUI 集成、Ollama 支持等)还在路上。生产环境部署建议等社区验证一轮再上。
1-bit 量化从文本扩展到图像,这不是一个孤立事件。它代表的是 AI 推理从"堆算力"到"极致压缩"的范式转移。在 AI 芯片越来越贵、能耗越来越高的今天,这条路线的工程价值只会越来越大。