<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Image Generation on Hypho - AI Agent 技术博客</title><link>https://blog.hypho.cn/tags/image-generation/</link><description>Recent content in Image Generation on Hypho - AI Agent 技术博客</description><image><title>Hypho - AI Agent 技术博客</title><url>https://blog.hypho.cn/papermod-cover.png</url><link>https://blog.hypho.cn/papermod-cover.png</link></image><generator>Hugo -- 0.148.2</generator><language>zh-cn</language><lastBuildDate>Mon, 01 Jun 2026 12:23:14 +0800</lastBuildDate><atom:link href="https://blog.hypho.cn/tags/image-generation/index.xml" rel="self" type="application/rss+xml"/><item><title>1-bit 图像生成不再是玄学：PrismML Bonsai Image 如何让 Diffusion 模型跑在 iPhone 上</title><link>https://blog.hypho.cn/posts/bonsai-image-1bit-edge-image-generation/</link><pubDate>Mon, 01 Jun 2026 12:23:14 +0800</pubDate><guid>https://blog.hypho.cn/posts/bonsai-image-1bit-edge-image-generation/</guid><description>PrismML 将 1-bit 量化从文本模型扩展到图像生成，发布 Bonsai Image 4B，基于 FLUX.2 架构，实现 8× 模型压缩和 5.6× 推理加速，首次让 Diffusion Transformer 在 iPhone 上本地运行。本文解析其技术原理、社区基准测试、实际部署流程，以及 1-bit 量化在边缘 AI 推理中的工程价值。</description><content:encoded><![CDATA[<p>前几天看到 PrismML 发布了 Bonsai Image 4B，声称可以在 iPhone 上本地跑图像生成，我的第一反应是&quot;又一个宣传噱头&quot;。毕竟图像生成模型动辄几个 GB，Diffusion Transformer 的计算量比文本 LLM 大得多，怎么压缩到手机能跑？</p>
<p>但仔细看了他们的技术方案和社区基准之后，我改了主意。这不是简单的模型量化，而是从训练阶段就用 1-bit 权重做端到端训练——换句话说，模型天生就是&quot;压缩态&quot;的，不是训好之后再硬压。</p>
<p>这和我们之前讨论过的<a href="https://blog.hypho.cn/posts/gemma-4-multi-token-prediction-inference/">推理优化路线</a>完全不同。量化只是推理阶段的事，但 PrismML 的思路是：<strong>让模型在训练时就接受 1-bit 的约束</strong>，这样精度损失是渐进的，而不是事后的暴力截断。</p>
<h2 id="从-bonsai-8b-到-bonsai-image一条技术路线的延伸">从 Bonsai-8B 到 Bonsai Image：一条技术路线的延伸</h2>
<p>PrismML 这家公司来头不小——脱胎于 Caltech 研究，拿了 Khosla Ventures、Cerberus 和 Google 的投资。他们今年 3 月发布的 Bonsai-8B 是全球第一个&quot;商业可行的 1-bit LLM&quot;，整数权重只有 {-1, 0, +1} 三种取值。</p>
<p>用人话说就是：传统模型的每个权重参数是一个 16 位浮点数，占 2 字节。Bonsai 的每个权重只占 1 bit（甚至 ternary 版本约 1.58 bit）。一个 8B 参数模型，FP16 版本要 16 GB 内存，Bonsai-8B 只要 <strong>1.15 GB</strong>。</p>
<p>这个压缩比有多大？14 倍。在 RTX 4090 上推理速度提升 6.2 倍，能耗降低 4-5 倍。这就是为什么他们敢说&quot;可以在手机上跑&quot;——不是噱头，是真的把模型缩小到了手机内存能装下的程度。</p>
<p>Bonsai Image 4B 延续了同样的技术路线，但对象从文本生成换成了图像生成。基座模型是 Black Forest Labs 的 FLUX.2-klein-4B（一个 4B 参数的 Diffusion Transformer），PrismML 在此基础上做了 1-bit 和 ternary 两种量化版本。</p>
<h2 id="具体怎么做的">具体怎么做的？</h2>
<p>Bonsai Image 提供两个量化变体：</p>
<ul>
<li><strong>Binary (1-bit)</strong>：权重严格为 {-1, +1}，模型最小，适合内存极度受限的设备</li>
<li><strong>Ternary (1.58-bit)</strong>：权重为 {-1, 0, +1}，质量更好，是推荐版本</li>
</ul>
<p>在推理层面，PrismML 没有依赖 llama.cpp 或任何 C/C++ 运行时，而是用了两条技术栈：</p>
<ul>
<li><strong>Apple Silicon</strong>：通过 <a href="https://github.com/ml-explore/mlx">MLX</a> 框架原生运行，利用 mlx-2bit 格式</li>
<li><strong>NVIDIA GPU</strong>：通过 <a href="https://github.com/mobiusml/gemlite">gemlite</a> + <a href="https://github.com/dropbox/hqq">HQQ</a> 的低比特 GEMM 内核</li>
</ul>
<p>一个有意思的社区项目是 <a href="https://github.com/cool-japan/oxibonsai">OxiBonsai</a>——一个纯 Rust 实现的推理引擎，完全不依赖 C/C++ 运行时。它支持 CPU（SIMD）、Apple Silicon（Metal）和 NVIDIA（CUDA），已经有 156k 行 Rust 代码，4553 个测试通过。这说明 1-bit 推理引擎已经不是实验室玩具，开始有社区在认真做工程化了。</p>
<h2 id="社区基准和-qwen35-正面对比">社区基准：和 Qwen3.5 正面对比</h2>
<p>最有说服力的数据来自社区基准测试——<a href="https://github.com/ArmanJR/PrismML-Bonsai-vs-Qwen3.5-Benchmark">PrismML-Bonsai-vs-Qwen3.5-Benchmark</a> 在 NVIDIA Jetson Orin 上跑了一系列对比，覆盖 98 个问题、7 个类别（通用知识、数学、编程、历史、逻辑推理、语言理解、波斯语）。</p>
<p>关键数据：</p>
<table>
  <thead>
      <tr>
          <th>模型</th>
          <th>参数</th>
          <th>量化</th>
          <th>准确率</th>
          <th>生成速度 (tok/s)</th>
          <th>模型大小</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Qwen3.5-27B</td>
          <td>26.9B</td>
          <td>Q4_K_M</td>
          <td><strong>95.7%</strong></td>
          <td>9.5</td>
          <td>15.6 GiB</td>
      </tr>
      <tr>
          <td>Qwen3.5-9B</td>
          <td>8.95B</td>
          <td>Q4_K_M</td>
          <td>90.2%</td>
          <td>27.0</td>
          <td>5.3 GiB</td>
      </tr>
      <tr>
          <td>Qwen3.5-4B</td>
          <td>4.21B</td>
          <td>Q4_K_M</td>
          <td>85.2%</td>
          <td>36.7</td>
          <td>2.6 GiB</td>
      </tr>
      <tr>
          <td>Ternary-Bonsai-8B</td>
          <td>8.19B</td>
          <td>mlx-2bit</td>
          <td>85.0%</td>
          <td>15.0</td>
          <td>2.1 GiB</td>
      </tr>
      <tr>
          <td>Ternary-Bonsai-4B</td>
          <td>4.02B</td>
          <td>mlx-2bit</td>
          <td>83.0%</td>
          <td>23.9</td>
          <td>1.1 GiB</td>
      </tr>
      <tr>
          <td>Bonsai-8B</td>
          <td>8.19B</td>
          <td>Q1_0</td>
          <td>78.9%</td>
          <td><strong>46.5</strong></td>
          <td><strong>1.1 GiB</strong></td>
      </tr>
  </tbody>
</table>
<p>注意最后两行。Ternary-Bonsai-8B 只有 2.1 GiB，准确率和 2.6 GiB 的 Qwen3.5-4B 基本持平（85.0% vs 85.2%）。而 Bonsai-8B 的 Q1_0 格式只有 1.1 GiB，生成速度达到 46.5 tok/s，是所有 8B 级模型里最快的。</p>
<p>换一个角度看&quot;效率密度&quot;——准确率除以模型大小：</p>
<table>
  <thead>
      <tr>
          <th>模型</th>
          <th>准确率/GiB</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Ternary-Bonsai-1.7B</td>
          <td><strong>1.44</strong></td>
      </tr>
      <tr>
          <td>Qwen3.5-0.8B</td>
          <td>1.13</td>
      </tr>
      <tr>
          <td>Ternary-Bonsai-4B</td>
          <td>0.79</td>
      </tr>
      <tr>
          <td>Bonsai-8B</td>
          <td>0.72</td>
      </tr>
      <tr>
          <td>Qwen3.5-4B</td>
          <td>0.55</td>
      </tr>
      <tr>
          <td>Qwen3.5-9B</td>
          <td>0.43</td>
      </tr>
  </tbody>
</table>
<p>Ternary-Bonsai-1.7B 只有 462 MiB，但效率密度是所有模型里最高的。这就是 1-bit 量化的核心价值：<strong>在有限硬件上挤出最多的智能</strong>。</p>
<p>说白了就是——Bonsai 不是在和 27B 模型比绝对性能，而是在&quot;每 GB 内存能买到多少智能&quot;这个维度上碾压。</p>
<h2 id="图像生成的特殊挑战">图像生成的特殊挑战</h2>
<p>文本模型压缩到 1-bit 已经很了不起了，但图像生成是另一回事。</p>
<p>Diffusion Transformer 要做的工作远比文本 LLM 复杂：它需要在多个去噪步骤中逐步从噪声中&quot;雕琢&quot;出图像，每一步都涉及大量的矩阵运算。传统图像生成模型（如 SDXL 3.5B 参数）需要 GPU 加速才能勉强运行，手机上基本是奢望。</p>
<p>Bonsai Image 4B 的关键创新是把 1-bit 量化应用到了 Diffusion Transformer 的<strong>全部层</strong>——不只是 MLP，还包括注意力投影层。这使得 Diffusion Transformer 的体积缩小了最高 8 倍，推理速度提升最高 5.6 倍。</p>
<p>HN 评论里有人指出一个值得注意的细节：Bonsai Image 的文本编码器仍然是 4-bit 量化的，不是 1-bit。这意味着整个管线并不是纯 1-bit——文本理解部分还是用的传统量化方式，只有图像生成的 Diffusion Transformer 部分是 1-bit。这其实很合理：文本编码器的参数量相对较小，压缩它带来的收益有限，但对理解质量影响很大。</p>
<p>也有人质疑&quot;第一个在 iPhone 上跑的图像模型&quot;的说法——SDXL 3.5B 参数，理论上也能在 iPhone 13 Pro 上跑。但 PrismML 的意思是 Bonsai Image 是第一个专门为移动端优化的 1-bit 图像生成模型，而不是简单地把桌面模型硬塞进手机。</p>
<h2 id="怎么跑起来">怎么跑起来？</h2>
<p>PrismML 提供了相当友好的部署流程。在 macOS 上：</p>
<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"><span class="line"><span class="cl">git clone https://github.com/PrismML-Eng/Bonsai-Image-Demo
</span></span><span class="line"><span class="cl"><span class="nb">cd</span> Bonsai-Image-Demo
</span></span><span class="line"><span class="cl">./setup.sh
</span></span><span class="line"><span class="cl">./scripts/generate.sh --prompt <span class="s2">&#34;An icy Bonsai tree in a rainy forest&#34;</span>
</span></span></code></pre></div><p><code>setup.sh</code> 会自动检测平台，macOS 走 MLX 路径，Linux 走 gemlite/HQQ 路径。Windows 也有 PowerShell 脚本支持，不需要 WSL2。</p>
<p>更轻量的体验方式是直接用 <a href="https://huggingface.co/spaces/prism-ml/Bonsai-image-demo">HuggingFace Space</a> 或 <a href="https://colab.research.google.com/github/PrismML-Eng/Bonsai-image-demo/blob/main/notebooks/bonsai_image_colab.ipynb">Google Colab</a>。</p>
<h2 id="这对边缘-ai-意味着什么">这对边缘 AI 意味着什么？</h2>
<p>我们之前讨论过 <a href="https://blog.hypho.cn/posts/ai-chip-memory-wall-hbm-cost/">AI 芯片的内存瓶颈</a>——HBM 的成本越来越高，数据中心的能耗压力越来越大。1-bit 量化提供了一条完全不同的思路：与其堆更多更快的内存，不如把模型本身压缩到极致。</p>
<p>这对几个场景有直接意义：</p>
<p><strong>端侧推理</strong>：手机、树莓派、Jetson 这类设备内存有限，1-bit 模型可以把原本需要云端的推理任务拉到本地。图像生成只是开始，视频生成、3D 生成都有可能。</p>
<p><strong>隐私敏感场景</strong>：本地推理意味着数据不出设备。这对医疗影像、安防监控等场景有天然吸引力。</p>
<p><strong>成本控制</strong>：我们之前分析过 <a href="https://blog.hypho.cn/posts/local-llm-ollama-llama-cpp/">本地 LLM 推理的成本优势</a>，1-bit 量化把这个优势放大了一个数量级。</p>
<p>当然，1-bit 量化也有明显的局限。社区基准已经表明，Bonsai-8B 在绝对准确率上和 Qwen3.5-27B 差了将近 17 个百分点。压缩是有代价的——复杂推理、长上下文理解、边缘案例处理，这些任务对权重精度的要求更高，1-bit 模型在这些场景下会明显吃力。</p>
<p>对图像生成来说，质量损失可能更直观。你压缩文本模型，输出可能只是措辞不够精准；但压缩图像模型，可能直接出现视觉伪影、细节丢失、风格偏移。PrismML 的白皮书声称&quot;保持了强视觉质量&quot;，但 HN 评论里也有人反馈 WebGL demo 在手机上崩溃、iOS-only 的 demo 限制了受众。</p>
<h2 id="工程判断">工程判断</h2>
<p>如果你在做边缘 AI 部署，我的建议是：</p>
<ol>
<li>
<p><strong>Ternary-Bonsai 是首选</strong>。1.58-bit 的 ternary 版本在质量-大小平衡上明显优于纯 1-bit binary 版本。多出来的 0.58 bit 换来的准确率提升非常可观。</p>
</li>
<li>
<p><strong>不要指望替代云端大模型</strong>。Bonsai 的定位是&quot;在有限硬件上提供可用的智能&quot;，而不是和 GPT-4 或 Flux Pro 比绝对质量。用对场景很关键。</p>
</li>
<li>
<p><strong>关注 OxiBonsai 这样的社区项目</strong>。纯 Rust 推理引擎意味着更好的跨平台一致性和更少的 C/C++ 依赖问题。如果 PrismML 的官方工具链不能满足你的需求，OxiBonsai 值得一试。</p>
</li>
<li>
<p><strong>图像生成目前还处于早期</strong>。Bonsai Image 4B 刚发布，社区工具链（ComfyUI 集成、Ollama 支持等）还在路上。生产环境部署建议等社区验证一轮再上。</p>
</li>
</ol>
<p>1-bit 量化从文本扩展到图像，这不是一个孤立事件。它代表的是 AI 推理从&quot;堆算力&quot;到&quot;极致压缩&quot;的范式转移。在 AI 芯片越来越贵、能耗越来越高的今天，这条路线的工程价值只会越来越大。</p>
]]></content:encoded></item></channel></rss>