Needle 26M 工具调用模型:Agent 真需要大模型来选工具吗?

如果你正在做 AI Agent,有一个问题很容易被忽略:Agent 到底需不需要一个很大的模型来“选择工具”? 我以前默认答案是“需要”。毕竟工具调用看起来像推理:用户说“明天早上 8 点提醒我带伞”,模型要理解意图、找到日历或提醒工具、抽取时间、地点和参数,最后输出一段合法 JSON。让 7B、14B 甚至更大的模型来做,似乎很自然。 但这两天 HN 上的 Needle 把这个直觉反过来了。Cactus 团队开源了一个只有 26M 参数的 function calling 模型,README 里说它是把 Gemini 3.1 的工具调用能力蒸馏到一个 “Simple Attention Network” 上,目标是跑在手机、手表、眼镜这类消费设备上。项目目前 MIT 开源,代码在 cactus-compute/needle,权重放在 Hugging Face。 26M 是什么概念?比很多 embedding 模型还小,比常见的 0.5B/1.5B 小模型又小一个数量级。它不打算写诗、聊天、做数学题,只做一件事:给定用户 query 和工具 schema,吐出应该调用的工具及参数。 坦白说,我觉得这个方向比“又一个端侧聊天机器人”更值得写。因为生产里的 Agent 系统,最先遇到瓶颈的往往不是“模型不够聪明”,而是“每一步都太贵、太慢、太不稳定”。 把工具调用从“推理”降级成“路由” Needle 的核心判断很激进:单轮工具调用本质上不是开放式推理,而是 retrieval-and-assembly。 用人话说,就是三步:先从工具列表里匹配哪个工具最像用户意图;再从用户句子里抽参数;最后按 schema 拼成 JSON。这个过程当然需要语言理解,但它未必需要一个装满世界知识的大模型。工具说明和参数 schema 已经作为输入给了模型,事实知识在上下文里,不必塞进 FFN 权重里。 这也是它的架构为什么反常。Needle 的 Simple Attention Networks 文档 里明确写到:实验发现,如果任务依赖外部结构化知识,Transformer 里的 MLP/FFN 可以被完全拿掉,模型主要靠 attention 和 gating 工作。Needle 的结构是 12 层 encoder 加 8 层 decoder,隐藏维度 512,8 个 attention head,BPE 词表 8192;README 还强调 “no MLPs anywhere”。 ...

May 13, 2026 · 2 min · Hypho