Edge AI on Hypho - AI Agent 技术博客

1-bit 图像生成不再是玄学：PrismML Bonsai Image 如何让 Diffusion 模型跑在 iPhone 上

Mon, 01 Jun 2026 12:23:14 +0800

前几天看到 PrismML 发布了 Bonsai Image 4B，声称可以在 iPhone 上本地跑图像生成，我的第一反应是"又一个宣传噱头"。毕竟图像生成模型动辄几个 GB，Diffusion Transformer 的计算量比文本 LLM 大得多，怎么压缩到手机能跑？

但仔细看了他们的技术方案和社区基准之后，我改了主意。这不是简单的模型量化，而是从训练阶段就用 1-bit 权重做端到端训练——换句话说，模型天生就是"压缩态"的，不是训好之后再硬压。

这和我们之前讨论过的推理优化路线完全不同。量化只是推理阶段的事，但 PrismML 的思路是：让模型在训练时就接受 1-bit 的约束，这样精度损失是渐进的，而不是事后的暴力截断。

从 Bonsai-8B 到 Bonsai Image：一条技术路线的延伸

PrismML 这家公司来头不小——脱胎于 Caltech 研究，拿了 Khosla Ventures、Cerberus 和 Google 的投资。他们今年 3 月发布的 Bonsai-8B 是全球第一个"商业可行的 1-bit LLM"，整数权重只有 {-1, 0, +1} 三种取值。

用人话说就是：传统模型的每个权重参数是一个 16 位浮点数，占 2 字节。Bonsai 的每个权重只占 1 bit（甚至 ternary 版本约 1.58 bit）。一个 8B 参数模型，FP16 版本要 16 GB 内存，Bonsai-8B 只要 1.15 GB。

这个压缩比有多大？14 倍。在 RTX 4090 上推理速度提升 6.2 倍，能耗降低 4-5 倍。这就是为什么他们敢说"可以在手机上跑"——不是噱头，是真的把模型缩小到了手机内存能装下的程度。

Bonsai Image 4B 延续了同样的技术路线，但对象从文本生成换成了图像生成。基座模型是 Black Forest Labs 的 FLUX.2-klein-4B（一个 4B 参数的 Diffusion Transformer），PrismML 在此基础上做了 1-bit 和 ternary 两种量化版本。

具体怎么做的？

Bonsai Image 提供两个量化变体：

Binary (1-bit)：权重严格为 {-1, +1}，模型最小，适合内存极度受限的设备
Ternary (1.58-bit)：权重为 {-1, 0, +1}，质量更好，是推荐版本

在推理层面，PrismML 没有依赖 llama.cpp 或任何 C/C++ 运行时，而是用了两条技术栈：

Apple Silicon：通过 MLX 框架原生运行，利用 mlx-2bit 格式
NVIDIA GPU：通过 gemlite + HQQ 的低比特 GEMM 内核

一个有意思的社区项目是 OxiBonsai——一个纯 Rust 实现的推理引擎，完全不依赖 C/C++ 运行时。它支持 CPU（SIMD）、Apple Silicon（Metal）和 NVIDIA（CUDA），已经有 156k 行 Rust 代码，4553 个测试通过。这说明 1-bit 推理引擎已经不是实验室玩具，开始有社区在认真做工程化了。

社区基准：和 Qwen3.5 正面对比

最有说服力的数据来自社区基准测试——PrismML-Bonsai-vs-Qwen3.5-Benchmark 在 NVIDIA Jetson Orin 上跑了一系列对比，覆盖 98 个问题、7 个类别（通用知识、数学、编程、历史、逻辑推理、语言理解、波斯语）。

关键数据：

模型	参数	量化	准确率	生成速度 (tok/s)	模型大小
Qwen3.5-27B	26.9B	Q4_K_M	95.7%	9.5	15.6 GiB
Qwen3.5-9B	8.95B	Q4_K_M	90.2%	27.0	5.3 GiB
Qwen3.5-4B	4.21B	Q4_K_M	85.2%	36.7	2.6 GiB
Ternary-Bonsai-8B	8.19B	mlx-2bit	85.0%	15.0	2.1 GiB
Ternary-Bonsai-4B	4.02B	mlx-2bit	83.0%	23.9	1.1 GiB
Bonsai-8B	8.19B	Q1_0	78.9%	46.5	1.1 GiB

注意最后两行。Ternary-Bonsai-8B 只有 2.1 GiB，准确率和 2.6 GiB 的 Qwen3.5-4B 基本持平（85.0% vs 85.2%）。而 Bonsai-8B 的 Q1_0 格式只有 1.1 GiB，生成速度达到 46.5 tok/s，是所有 8B 级模型里最快的。

换一个角度看"效率密度"——准确率除以模型大小：

模型	准确率/GiB
Ternary-Bonsai-1.7B	1.44
Qwen3.5-0.8B	1.13
Ternary-Bonsai-4B	0.79
Bonsai-8B	0.72
Qwen3.5-4B	0.55
Qwen3.5-9B	0.43

Ternary-Bonsai-1.7B 只有 462 MiB，但效率密度是所有模型里最高的。这就是 1-bit 量化的核心价值：在有限硬件上挤出最多的智能。

说白了就是——Bonsai 不是在和 27B 模型比绝对性能，而是在"每 GB 内存能买到多少智能"这个维度上碾压。

图像生成的特殊挑战

文本模型压缩到 1-bit 已经很了不起了，但图像生成是另一回事。

Diffusion Transformer 要做的工作远比文本 LLM 复杂：它需要在多个去噪步骤中逐步从噪声中"雕琢"出图像，每一步都涉及大量的矩阵运算。传统图像生成模型（如 SDXL 3.5B 参数）需要 GPU 加速才能勉强运行，手机上基本是奢望。

Bonsai Image 4B 的关键创新是把 1-bit 量化应用到了 Diffusion Transformer 的全部层——不只是 MLP，还包括注意力投影层。这使得 Diffusion Transformer 的体积缩小了最高 8 倍，推理速度提升最高 5.6 倍。

HN 评论里有人指出一个值得注意的细节：Bonsai Image 的文本编码器仍然是 4-bit 量化的，不是 1-bit。这意味着整个管线并不是纯 1-bit——文本理解部分还是用的传统量化方式，只有图像生成的 Diffusion Transformer 部分是 1-bit。这其实很合理：文本编码器的参数量相对较小，压缩它带来的收益有限，但对理解质量影响很大。

也有人质疑"第一个在 iPhone 上跑的图像模型"的说法——SDXL 3.5B 参数，理论上也能在 iPhone 13 Pro 上跑。但 PrismML 的意思是 Bonsai Image 是第一个专门为移动端优化的 1-bit 图像生成模型，而不是简单地把桌面模型硬塞进手机。

怎么跑起来？

PrismML 提供了相当友好的部署流程。在 macOS 上：

git clone https://github.com/PrismML-Eng/Bonsai-Image-Demo
cd Bonsai-Image-Demo
./setup.sh
./scripts/generate.sh --prompt "An icy Bonsai tree in a rainy forest"

setup.sh 会自动检测平台，macOS 走 MLX 路径，Linux 走 gemlite/HQQ 路径。Windows 也有 PowerShell 脚本支持，不需要 WSL2。

更轻量的体验方式是直接用 HuggingFace Space 或 Google Colab。

这对边缘 AI 意味着什么？

我们之前讨论过 AI 芯片的内存瓶颈——HBM 的成本越来越高，数据中心的能耗压力越来越大。1-bit 量化提供了一条完全不同的思路：与其堆更多更快的内存，不如把模型本身压缩到极致。

这对几个场景有直接意义：

端侧推理：手机、树莓派、Jetson 这类设备内存有限，1-bit 模型可以把原本需要云端的推理任务拉到本地。图像生成只是开始，视频生成、3D 生成都有可能。

隐私敏感场景：本地推理意味着数据不出设备。这对医疗影像、安防监控等场景有天然吸引力。

成本控制：我们之前分析过本地 LLM 推理的成本优势，1-bit 量化把这个优势放大了一个数量级。

当然，1-bit 量化也有明显的局限。社区基准已经表明，Bonsai-8B 在绝对准确率上和 Qwen3.5-27B 差了将近 17 个百分点。压缩是有代价的——复杂推理、长上下文理解、边缘案例处理，这些任务对权重精度的要求更高，1-bit 模型在这些场景下会明显吃力。

对图像生成来说，质量损失可能更直观。你压缩文本模型，输出可能只是措辞不够精准；但压缩图像模型，可能直接出现视觉伪影、细节丢失、风格偏移。PrismML 的白皮书声称"保持了强视觉质量"，但 HN 评论里也有人反馈 WebGL demo 在手机上崩溃、iOS-only 的 demo 限制了受众。

工程判断

如果你在做边缘 AI 部署，我的建议是：

Ternary-Bonsai 是首选。1.58-bit 的 ternary 版本在质量-大小平衡上明显优于纯 1-bit binary 版本。多出来的 0.58 bit 换来的准确率提升非常可观。
不要指望替代云端大模型。Bonsai 的定位是"在有限硬件上提供可用的智能"，而不是和 GPT-4 或 Flux Pro 比绝对质量。用对场景很关键。
关注 OxiBonsai 这样的社区项目。纯 Rust 推理引擎意味着更好的跨平台一致性和更少的 C/C++ 依赖问题。如果 PrismML 的官方工具链不能满足你的需求，OxiBonsai 值得一试。
图像生成目前还处于早期。Bonsai Image 4B 刚发布，社区工具链（ComfyUI 集成、Ollama 支持等）还在路上。生产环境部署建议等社区验证一轮再上。

1-bit 量化从文本扩展到图像，这不是一个孤立事件。它代表的是 AI 推理从"堆算力"到"极致压缩"的范式转移。在 AI 芯片越来越贵、能耗越来越高的今天，这条路线的工程价值只会越来越大。

Needle 26M 工具调用模型：Agent 真需要大模型来选工具吗？

Wed, 13 May 2026 10:03:15 +0800

如果你正在做 AI Agent，有一个问题很容易被忽略：Agent 到底需不需要一个很大的模型来“选择工具”？

我以前默认答案是“需要”。毕竟工具调用看起来像推理：用户说“明天早上 8 点提醒我带伞”，模型要理解意图、找到日历或提醒工具、抽取时间、地点和参数，最后输出一段合法 JSON。让 7B、14B 甚至更大的模型来做，似乎很自然。

但这两天 HN 上的 Needle 把这个直觉反过来了。Cactus 团队开源了一个只有 26M 参数的 function calling 模型，README 里说它是把 Gemini 3.1 的工具调用能力蒸馏到一个 “Simple Attention Network” 上，目标是跑在手机、手表、眼镜这类消费设备上。项目目前 MIT 开源，代码在 cactus-compute/needle，权重放在 Hugging Face。

26M 是什么概念？比很多 embedding 模型还小，比常见的 0.5B/1.5B 小模型又小一个数量级。它不打算写诗、聊天、做数学题，只做一件事：给定用户 query 和工具 schema，吐出应该调用的工具及参数。

坦白说，我觉得这个方向比“又一个端侧聊天机器人”更值得写。因为生产里的 Agent 系统，最先遇到瓶颈的往往不是“模型不够聪明”，而是“每一步都太贵、太慢、太不稳定”。

把工具调用从“推理”降级成“路由”

Needle 的核心判断很激进：单轮工具调用本质上不是开放式推理，而是 retrieval-and-assembly。

用人话说，就是三步：先从工具列表里匹配哪个工具最像用户意图；再从用户句子里抽参数；最后按 schema 拼成 JSON。这个过程当然需要语言理解，但它未必需要一个装满世界知识的大模型。工具说明和参数 schema 已经作为输入给了模型，事实知识在上下文里，不必塞进 FFN 权重里。

这也是它的架构为什么反常。Needle 的 Simple Attention Networks 文档里明确写到：实验发现，如果任务依赖外部结构化知识，Transformer 里的 MLP/FFN 可以被完全拿掉，模型主要靠 attention 和 gating 工作。Needle 的结构是 12 层 encoder 加 8 层 decoder，隐藏维度 512，8 个 attention head，BPE 词表 8192；README 还强调 “no MLPs anywhere”。

这句话的工程含义很直白：FFN 更像模型的“记忆仓库”和非线性加工层，而工具调用场景里的“记忆”已经外置成工具列表了。既然你每次都把 get_weather(location)、create_timer(duration)、send_message(contact, text) 这些 schema 喂给模型，它要做的就不是背知识，而是对齐 query 与 schema。

这有点像 RAG 里的 rerank。你不会让一个通用大模型从全世界知识里凭空猜文档，而是先给它候选，再让它排序。此前我在写 RAG 重排里的 Bi-Encoder 与 Cross-Encoder 时就说过：一旦候选空间被压小，专用模型往往比通用模型更划算。Needle 放到 Agent 里也是类似逻辑：工具集就是候选空间，function calling 模型就是路由器。

说白了，它不是想替代 GPT-5，而是想替代 Agent 系统里那一层“每次都请大模型选工具”的昂贵默认值。

小模型真正省下来的不是钱，而是系统复杂度

README 里给了一个很抓眼球的数字：Needle 在 Cactus 上可以达到 6000 tokens/s prefill、1200 tokens/s decode。这个数字要谨慎看，因为它和硬件、量化、输入长度、batch 方式都有关，不能直接拿来和云端 API 或 vLLM 服务做横向对比。但即便打个折，它也说明一个事实：26M 参数模型的部署形态完全不同。

大模型工具调用通常意味着：请求从 App 发到后端，后端调用 LLM API 或自建推理服务，模型返回 JSON，业务再执行工具。这里面有网络、鉴权、队列、限流、日志脱敏、失败重试和成本核算。每多一次 Agent step，都多一次系统不确定性。

如果工具路由能在端侧或本地服务完成，架构会简单很多。比如手机上的个人助手要在“计时器、短信、日历、导航、智能家居”之间选择工具，它不一定需要把用户原话发到云端；浏览器插件要对页面做轻量操作，也不一定要每次走服务器。这个判断和我之前写 Chrome Prompt API 时的结论一致：端侧模型的核心价值不是更聪明，而是更靠近数据、更低延迟、更少合规解释。

当然，Needle 不是 Chrome 内置能力，它是一个开源模型和训练/微调工具链。但它代表的是同一条路线：把低风险、结构化、可校验的 AI 子任务从“大模型中心”拆出来，下沉到更便宜的位置。

我更看重的是这件事对 Agent 编排的影响。很多 Agent 框架现在喜欢把所有步骤都丢给同一个大模型：规划、选工具、写参数、观察结果、再规划。这样做 Demo 很快，但线上很难控。一个更工程化的拆法应该是：

复杂规划交给强模型；
工具路由交给小模型或规则+模型混合层；
参数校验交给 schema validator；
高风险动作再让强模型或人工复核。

Needle 正好卡在第二层。

但别把它误读成“26M 打败大模型”

我不太喜欢一些小模型项目的宣传口径：动不动就“beats Qwen / Gemma / Granite”。Needle README 里也提到它在单轮 function calling 上优于 FunctionGemma-270M、Qwen-0.6B、Granite-350M、LFM2.5-350M，但同时也承认这些模型的能力范围更大，聊天和通用任务更强，小模型也会比较 finicky。

这点很重要。

工具调用在生产里不是一个单一 benchmark。真实系统里会出现很多脏情况：用户一句话包含多个意图；工具 schema 写得含糊；业务参数有隐式默认值；同名联系人需要 disambiguation；模型输出 JSON 合法但业务语义错；多轮上下文里前一句的“它”到底指哪个对象。26M 模型如果只做 single-shot function call，遇到这些场景就需要外部系统补位。

所以我的建议不是“把 Agent 的工具调用全部换成 Needle”，而是先把任务分层。

适合 Needle 这类小模型的场景，大概有三个特征：第一，工具集合稳定且数量有限；第二，用户表达比较短，主要是单轮命令；第三，错误可以被校验、回退或二次确认。比如本地设备助手、浏览器扩展、企业内部固定流程、IoT 控制、低风险自动化命令。

不适合的场景也很明显：跨系统长链路规划、金融/医疗/法律等高风险动作、强多轮上下文依赖、工具 schema 高频变化、需要复杂业务推理的 Agent。这些地方小模型可以做候选路由，但不该单独拍板。

换句话说，Needle 的生产价值不是“更强”，而是“更窄”。窄到可以测试、可以微调、可以部署在边缘，也可以被工程系统包住。

微调按钮很诱人，数据质量才是坑

Needle 提供了 playground、CLI 和 Python API。README 的 Quickstart 是：clone 仓库，cd needle && source ./setup，然后 needle playground 打开本地 Web UI；Python 里可以加载 checkpoint，把 query 和 tools 传给 generate()，得到类似 [{"name":"get_weather","arguments":{"location":"San Francisco"}}] 的结果。它还支持 needle finetune data.jsonl，并且可以用 Gemini 生成训练数据。

这个体验看起来很顺，但我会特别提醒一句：微调工具调用模型，最难的不是跑训练，而是定义“正确”。

比如一个 CRM Agent 里有 create_lead、update_contact、log_activity 三个工具。用户说“把刚才那个客户加到下周跟进里”，到底应该调哪个？如果业务流程要求先查联系人再建任务，单轮数据里只标一个最终工具可能就是错的。再比如参数抽取，时间、币种、地区、权限范围都可能有业务默认值，这些默认值不在用户原话里，模型很容易学出看似合理但实际危险的补全。

所以，如果真要把 Needle 用到内部系统，我会这样落地：先从日志里抽取高频、低风险、单工具动作；人工审核一小批高质量 JSON 标注；用 schema validator 做硬约束；上线后只让它处理置信度高的请求；低置信度或校验失败就回退到强模型。不要一上来就让小模型接管所有工具调用。

这和我们做本地 LLM 推理选型时的经验一样：模型只是系统的一块。真正决定可用性的，是输入边界、失败回退、观测指标和数据闭环。

我会怎么评价 Needle

先说优点。它把一个长期被大模型垄断的子任务拆了出来，并且给了代码、权重、训练入口和架构解释。GitHub API 显示，Needle 仓库有 400+ stars，最近提交就在 2026 年 5 月 12 日，根目录包含 needle/、pyproject.toml、requirements.txt、setup 和训练脚本，不是只有白皮书的概念项目。背后的 Cactus 也是一个移动端低延迟 AI 引擎，stars 已经超过 4.7k，说明团队不是临时拼了一个 README。

再说保留意见。第一，Needle 目前更像一个实验性专用模型，而不是成熟平台。它的最佳场景是 single-shot function calling；如果你的 Agent 依赖复杂多轮状态，它不会神奇解决问题。第二，公开 benchmark 还需要更多第三方复现。README 里的速度和效果数字值得关注，但生产选型不能只看项目方自测。第三，端侧部署还涉及模型更新、兼容性、隐私日志、用户授权和安全策略，这些都不是 26M 参数本身能解决的。

但我依然觉得它值得跟进。原因不是它“打败了大模型”，而是它逼我们重新拆分 Agent 架构：哪些步骤真的需要强推理？哪些只是结构化映射？哪些可以由小模型、本地模型甚至规则系统完成？

这会是未来 Agent 工程里很现实的一条优化线。

如果你现在已经有 Agent 产品，我建议做一个小实验：把最近一周的工具调用日志拿出来，按“单轮/多轮、单工具/多工具、低风险/高风险、可校验/不可校验”四个维度打标签。你可能会发现，相当一部分调用并不需要昂贵的大模型。它们需要的是一个快、便宜、可控的工具路由层。

Needle 给这个路由层提供了一个可验证的开源起点。