1-bit 图像生成不再是玄学:PrismML Bonsai Image 如何让 Diffusion 模型跑在 iPhone 上

前几天看到 PrismML 发布了 Bonsai Image 4B,声称可以在 iPhone 上本地跑图像生成,我的第一反应是"又一个宣传噱头"。毕竟图像生成模型动辄几个 GB,Diffusion Transformer 的计算量比文本 LLM 大得多,怎么压缩到手机能跑? 但仔细看了他们的技术方案和社区基准之后,我改了主意。这不是简单的模型量化,而是从训练阶段就用 1-bit 权重做端到端训练——换句话说,模型天生就是"压缩态"的,不是训好之后再硬压。 这和我们之前讨论过的推理优化路线完全不同。量化只是推理阶段的事,但 PrismML 的思路是:让模型在训练时就接受 1-bit 的约束,这样精度损失是渐进的,而不是事后的暴力截断。 从 Bonsai-8B 到 Bonsai Image:一条技术路线的延伸 PrismML 这家公司来头不小——脱胎于 Caltech 研究,拿了 Khosla Ventures、Cerberus 和 Google 的投资。他们今年 3 月发布的 Bonsai-8B 是全球第一个"商业可行的 1-bit LLM",整数权重只有 {-1, 0, +1} 三种取值。 用人话说就是:传统模型的每个权重参数是一个 16 位浮点数,占 2 字节。Bonsai 的每个权重只占 1 bit(甚至 ternary 版本约 1.58 bit)。一个 8B 参数模型,FP16 版本要 16 GB 内存,Bonsai-8B 只要 1.15 GB。 这个压缩比有多大?14 倍。在 RTX 4090 上推理速度提升 6.2 倍,能耗降低 4-5 倍。这就是为什么他们敢说"可以在手机上跑"——不是噱头,是真的把模型缩小到了手机内存能装下的程度。 ...

June 1, 2026 · 3 min · Hypho