Chrome Prompt API 能把本地 LLM 带进生产吗?浏览器内置 AI 的工程边界
如果你做过 Web 端 AI 功能,大概率踩过同一个坑:用户只是想总结一段文字、给评论纠错、从页面里问几个问题,你却要把内容发到云端 LLM,承担 token 成本、排队延迟、隐私合规和数据出境解释。 所以我看到 Hacker News 上 The Prompt API 这条讨论冲到两百多分时,第一反应不是“浏览器终于也有 AI 了”,而是:这东西如果真能稳定落地,会改变一类低风险 AI 功能的默认架构。 Chrome 的官方文档把 Prompt API 描述得很直接:网页或 Chrome Extension 可以把自然语言请求发给浏览器内置的 Gemini Nano。换成人话说,就是以前你在前端调用 fetch('/api/ask'),后端再转发给 OpenAI、Gemini 或自建 vLLM;现在有些场景可以直接在浏览器里问本地模型。 这听起来很香,但我不建议现在就把它当成“云端 LLM 替代品”。它更像一块新的系统拼图:适合放在用户设备边缘,处理轻量、局部、对隐私敏感、失败代价不高的任务。 它真正解决的不是“更聪明”,而是“更靠近数据” Prompt API 背后的标准化工作在 Web Machine Learning Community Group 的 prompt-api 仓库 里。这个 Explainer 说得很清楚:今天 Web 开发者要用语言模型,通常只有两条路:调用云端 API,或者自己把模型用 WASM/WebGPU 之类的方式塞进浏览器。前者简单但有隐私和成本问题,后者灵活但工程负担很重。 浏览器内置模型想走第三条路:模型由浏览器或操作系统提供,Web 应用只拿到一个标准 API。 说白了就是:模型不属于你,运行环境也不完全属于你,但调用入口变简单了。 这件事的工程价值不在于 Gemini Nano 一定比你后端的大模型强。恰恰相反,它大概率不会更强。它的价值在于位置:模型离用户输入、页面 DOM、临时草稿、聊天记录更近。很多数据本来就停留在浏览器里,如果只是做摘要、标签、轻量问答、辅助改写,非要绕一圈云端并不总是合理。 Chrome 的 built-in AI 入门文档 也强调了这个方向:内置 AI 让 Web 应用在不部署、不管理自有模型的情况下完成 AI 任务。这个表述很克制,它没有承诺“最强模型”,而是在强调部署和管理成本。 ...