1-bit 图像生成不再是玄学:PrismML Bonsai Image 如何让 Diffusion 模型跑在 iPhone 上

前几天看到 PrismML 发布了 Bonsai Image 4B,声称可以在 iPhone 上本地跑图像生成,我的第一反应是"又一个宣传噱头"。毕竟图像生成模型动辄几个 GB,Diffusion Transformer 的计算量比文本 LLM 大得多,怎么压缩到手机能跑? 但仔细看了他们的技术方案和社区基准之后,我改了主意。这不是简单的模型量化,而是从训练阶段就用 1-bit 权重做端到端训练——换句话说,模型天生就是"压缩态"的,不是训好之后再硬压。 这和我们之前讨论过的推理优化路线完全不同。量化只是推理阶段的事,但 PrismML 的思路是:让模型在训练时就接受 1-bit 的约束,这样精度损失是渐进的,而不是事后的暴力截断。 从 Bonsai-8B 到 Bonsai Image:一条技术路线的延伸 PrismML 这家公司来头不小——脱胎于 Caltech 研究,拿了 Khosla Ventures、Cerberus 和 Google 的投资。他们今年 3 月发布的 Bonsai-8B 是全球第一个"商业可行的 1-bit LLM",整数权重只有 {-1, 0, +1} 三种取值。 用人话说就是:传统模型的每个权重参数是一个 16 位浮点数,占 2 字节。Bonsai 的每个权重只占 1 bit(甚至 ternary 版本约 1.58 bit)。一个 8B 参数模型,FP16 版本要 16 GB 内存,Bonsai-8B 只要 1.15 GB。 这个压缩比有多大?14 倍。在 RTX 4090 上推理速度提升 6.2 倍,能耗降低 4-5 倍。这就是为什么他们敢说"可以在手机上跑"——不是噱头,是真的把模型缩小到了手机内存能装下的程度。 ...

June 1, 2026 · 3 min · Hypho

Needle 26M 工具调用模型:Agent 真需要大模型来选工具吗?

如果你正在做 AI Agent,有一个问题很容易被忽略:Agent 到底需不需要一个很大的模型来“选择工具”? 我以前默认答案是“需要”。毕竟工具调用看起来像推理:用户说“明天早上 8 点提醒我带伞”,模型要理解意图、找到日历或提醒工具、抽取时间、地点和参数,最后输出一段合法 JSON。让 7B、14B 甚至更大的模型来做,似乎很自然。 但这两天 HN 上的 Needle 把这个直觉反过来了。Cactus 团队开源了一个只有 26M 参数的 function calling 模型,README 里说它是把 Gemini 3.1 的工具调用能力蒸馏到一个 “Simple Attention Network” 上,目标是跑在手机、手表、眼镜这类消费设备上。项目目前 MIT 开源,代码在 cactus-compute/needle,权重放在 Hugging Face。 26M 是什么概念?比很多 embedding 模型还小,比常见的 0.5B/1.5B 小模型又小一个数量级。它不打算写诗、聊天、做数学题,只做一件事:给定用户 query 和工具 schema,吐出应该调用的工具及参数。 坦白说,我觉得这个方向比“又一个端侧聊天机器人”更值得写。因为生产里的 Agent 系统,最先遇到瓶颈的往往不是“模型不够聪明”,而是“每一步都太贵、太慢、太不稳定”。 把工具调用从“推理”降级成“路由” Needle 的核心判断很激进:单轮工具调用本质上不是开放式推理,而是 retrieval-and-assembly。 用人话说,就是三步:先从工具列表里匹配哪个工具最像用户意图;再从用户句子里抽参数;最后按 schema 拼成 JSON。这个过程当然需要语言理解,但它未必需要一个装满世界知识的大模型。工具说明和参数 schema 已经作为输入给了模型,事实知识在上下文里,不必塞进 FFN 权重里。 这也是它的架构为什么反常。Needle 的 Simple Attention Networks 文档 里明确写到:实验发现,如果任务依赖外部结构化知识,Transformer 里的 MLP/FFN 可以被完全拿掉,模型主要靠 attention 和 gating 工作。Needle 的结构是 12 层 encoder 加 8 层 decoder,隐藏维度 512,8 个 attention head,BPE 词表 8192;README 还强调 “no MLPs anywhere”。 ...

May 13, 2026 · 2 min · Hypho