MCP on Hypho - AI Agent 技术博客

Semble 代码搜索：给编程 Agent 用的检索工具，真比 grep 更适合生产吗？

Mon, 18 May 2026 10:04:30 +0800

我对“给 Agent 做代码搜索”这类工具一直有点警惕。

原因很简单：很多产品把问题讲成“grep 太笨，向量检索更聪明”，最后落地却变成另一个黑盒。Agent 找不到符号定义时，开发者至少还能看见它 grep 了什么；如果换成一个语义搜索服务，结果看起来更像魔法，但错的时候也更难排查。

所以看到 HN 上的 Semble 时，我第一反应不是“又一个代码 RAG”，而是问一个更工程化的问题：编程 Agent 到底需要什么样的代码搜索？

Semble 的答案挺明确：它不是给人做 IDE 搜索，也不是给企业做大规模代码知识库，而是给 Claude Code、Codex、Cursor、OpenCode 这类编程 Agent 提供一个本地、低延迟、少 token 的代码检索层。HN 原帖标题也很直接：Show HN: Semble – Code search for agents that uses 98% fewer tokens than grep。截至我写这篇时，项目在 GitHub 上已经超过 1000 stars，最近提交也在 2026 年 5 月，至少不是一个空 README 项目。

为什么 grep 对 Agent 不够友好

人用 grep，其实会做很多隐性判断。

你搜 auth，看到 30 个文件，会快速扫目录名、测试文件、legacy 文件，再决定先打开哪个。你会知道 auth_test.py 不是主实现，compat/ 里可能只是兼容层，AuthProvider 的定义比调用点更重要。

Agent 就没这么省。

它通常会先 grep，一个关键词命中几十个文件，然后 read 一堆文件。每多读一个文件，就多消耗上下文窗口、多花钱、多增加模型注意力噪声。更麻烦的是，Agent 经常会被“看起来相关”的调用代码带偏，最后改了外围逻辑，真正的核心函数反而没碰。

用人话说：grep 的问题不是搜不到，而是搜出来之后太需要人类判断。

这也是 Semble 这个选题值得写的地方。它服务的搜索意图很清楚：如果你在搭建 AI 编程工作流，是否应该给 Agent 加一个专门的代码检索层，而不是继续让它 grep/read 暴力翻仓库？

Semble 的技术路线：不是纯向量搜索，而是混合检索

从 README 看，Semble 的实现没有走“把整个仓库丢进大 embedding 模型”的路线。它先用 Chonkie 做代码感知切块，然后同时跑两套检索：

基于 Model2Vec 的静态 embedding，默认用代码专用的 potion-code-16M 做语义相似度；
基于 bm25s 的 BM25，负责精确词、符号名、API 名称等词法匹配。

两路结果再用 Reciprocal Rank Fusion 融合，并叠加一些代码场景的 rerank 信号：符号查询提高词法权重、定义位置加权、identifier stem 匹配、同文件多 chunk 命中加权、测试和 legacy 文件降权等。

这个设计我比较认可。

因为代码搜索和普通文档 RAG 不一样。你搜“where is authentication handled”时，语义检索有用；但你搜 save_pretrained、Foo::bar、config_parser 时，语义模型再聪明也不能把精确符号匹配丢掉。纯向量搜索在代码库里最容易犯的错，就是把“意思相近”排到“真正定义”前面。

Semble 的混合路线本质上是在承认一件事：代码检索不是语义理解比赛，而是语义、符号和工程上下文的排序问题。

这和我之前写 RAG 重排时的判断是一致的：向量召回只解决“可能相关”，真正影响可用性的往往是第二阶段排序。相关讨论可以看这篇：向量数据库已经很快了，为什么还要重排？。Semble 把这个思路压缩到本地代码搜索里，算是一个很实用的工程版本。

它为什么强调“少用 98% token”

Semble README 里反复强调 token 节省：相对 grep+read，返回更小的相关代码片段，声称可以少用约 98% token。它的 semble savings 统计也比较朴素：把“命中文件全文字符数”和“实际返回片段字符数”做差，再按 4 字符约等于 1 token 估算。

这个口径不完美，但方向对。

对编程 Agent 来说，token 成本不是唯一问题。更关键的是上下文污染：模型读了太多不相关文件，就会开始“合理化”错误线索。你以为只是多花几分钱，实际可能是让 Agent 在错误文件里自信地改代码。

我更愿意把 Semble 的价值理解成：它不是单纯省钱，而是在帮 Agent 缩小可操作空间。

比如一个 Agent 要找“配置加载后如何合并环境变量”，传统 grep 可能先命中一堆文档、测试、旧兼容代码。Semble 这种混合检索如果能把定义、主实现和同文件上下文排到前面，Agent 后续 read 的内容就更接近真正需要改的地方。

说白了就是：少读错代码，比少读代码更重要。

MCP 很方便，但生产里我更建议保留 Bash 入口

Semble 支持 MCP Server，可以通过 uvx --from "semble[mcp]" semble 接进 Claude Code、Codex、OpenCode、Cursor 等工具；也支持 CLI 和 Python API。README 里还特别提到，对 Claude Code 或 Codex CLI 的 sub-agent，Bash integration 可能比 MCP 更实用，因为有些 sub-agent 不会直接拿到顶层 MCP schema。

这个细节挺真实。

很多 Agent 工具链在 demo 里 MCP 很顺，但一到多 Agent、子任务、CI、沙箱环境，MCP 工具的可见性、权限和生命周期就会变复杂。相比之下，一个 semble search "authentication flow" ./repo 的 CLI 命令更笨，但更容易写进 AGENTS.md、CI 脚本和审计日志。

我的建议是：

个人开发或轻量项目，可以先用 MCP，体验自然语言代码搜索；
团队级工作流，最好同时配置 CLI/Bash 入口，让 Agent 的搜索行为可复现；
对关键仓库，不要让搜索工具自动替代人工审查，至少要保留“搜索结果来自哪些文件、哪些行”的可追踪信息。

这和我之前写 Claude Code routines 时的观点类似：真正可靠的 Agent 工作流，不是给模型更多自由，而是把常用动作沉淀成可重复、可观察的例程。

Semble 适合什么场景

我会把 Semble 放在“中小型代码库 + 高频 Agent 修改”的位置上，而不是一上来就当企业代码搜索平台。

它最适合的场景大概有三类。

第一，Agent 经常需要理解陌生模块。比如让 Codex 修一个 bug，它需要先知道认证逻辑、缓存逻辑、数据模型在哪里。Semble 能把“自然语言问题”映射到代码片段，比单纯 grep 一个关键词更贴近 Agent 的提问方式。

第二，仓库不大但语言混杂。Semble 的 benchmark 覆盖 63 个仓库、19 种语言，README 宣称平均仓库索引用时约 263ms、查询 p50 约 1.5ms，且 CPU 本地运行。即便实际项目里会慢一些，这个量级也意味着它可以放进交互式 Agent 循环，而不是只能做离线索引。

第三，团队已经开始关心 Agent token 和上下文质量。尤其是用 Claude Code、Cursor、Codex 做大仓库修改时，传统 grep/read 会让模型吞掉大量文件。Semble 至少给了一个更精细的入口。

但它不适合所有情况。

如果你的仓库强依赖跨服务调用、运行时配置、数据库 schema、RPC IDL，单纯代码检索不够。Agent 需要的不只是“哪段代码相关”，还包括“这段代码在生产里如何被调用”。这类场景更像系统级知识图谱或内部开发者平台问题，Semble 只能解决其中的局部搜索。

另外，Semble 目前仍是新项目。虽然 GitHub stars 和提交活跃度不错，也有 src/、tests/、PyPI 包和 benchmark，但生产落地仍要验证版本稳定性、索引缓存策略、大仓库内存占用、私有代码安全审计等问题。它不是白皮书阶段，不过也还没到“闭眼上全公司”的成熟度。

我会怎么接入

如果让我在团队里试 Semble，我不会一开始就替换 grep。

我会先把它作为 Agent 的“第一查询工具”：当任务是理解业务逻辑、找实现位置、找相似代码时，优先用 semble search；当任务是精确确认字符串、配置项、错误码、迁移脚本时，仍然用 grep 或 ripgrep。两者并不冲突。

一个比较稳的 AGENTS.md 规则可以是：

当你需要理解某个功能在哪里实现时，先使用 semble search；
当你需要确认具体符号、错误信息、配置 key 是否存在时，再使用 rg/grep 做精确验证；
修改代码前必须 read 目标文件的完整相关上下文，不得只依赖搜索片段。

最后一句很重要。

搜索结果只能帮 Agent 找入口，不能替代阅读上下文。尤其是代码修改任务，chunk 级结果可能漏掉初始化、副作用、类型约束和调用顺序。如果 Agent 只看一个片段就动手，Semble 再准也救不了它。

这也是我对“Agent 工具化”的基本态度：工具应该让模型少走弯路，而不是让模型少承担验证责任。像 Statewright 用状态机给编程 Agent 加护栏这类项目关注的是执行过程约束，Semble 关注的是上下文获取质量。两个方向其实可以叠加：先让 Agent 找对代码，再用状态机限制它怎么改。

结论：值得试，但不要神化

Semble 最打动我的地方，不是“98% token saving”这个数字，而是它把编程 Agent 的一个高频痛点讲清楚了：Agent 不缺搜索命令，缺的是低噪声、低延迟、可落地的代码上下文入口。

它的混合检索路线也比“全靠 embedding”的方案更接地气。BM25 负责符号和关键词，静态代码 embedding 负责自然语言意图，rerank 负责把定义、主实现、文件上下文排上来。这个组合不性感，但工程上合理。

我的判断是：如果你已经在用 Claude Code、Codex 或 Cursor 做真实代码修改，Semble 值得作为辅助检索层试一轮；如果你还没有稳定的 Agent 工作流，先别急着引入更多工具，先把任务拆分、测试、审查和回滚做好。

搜索只是第一步。

真正的生产级 AI 编程，靠的是“找得准、改得小、测得全、回得去”。Semble 解决的是第一项，而且解决得还挺有意思。

Statewright：用状态机给 AI 编程 Agent 加护栏，真的比长提示词更靠谱吗？

Fri, 15 May 2026 10:04:27 +0800

如果你用过 Claude Code、Codex CLI 或 Cursor 这类编程 Agent，大概率见过一种很烦人的失败模式：它明明已经读完文件，却又回头读一遍；明明应该先写测试，却开始大面积重构；明明只是修一个 20 行 bug，却顺手动了 6 个模块。最后 token 花了，diff 也出来了，但你不敢合并。

我越来越觉得，这不是“模型不够聪明”一个问题。

更准确地说，是我们把 Agent 放进了一个没有交通规则的城市：Read、Grep、Edit、Bash、Web、MCP 工具全都摊在它面前，然后指望一段系统提示词告诉它“请谨慎驾驶”。提示词当然有用，但它不是刹车，也不是红绿灯。

这也是 Statewright 最近在 HN 上引起我注意的原因。它的口号很硬：Agents are suggestions, states are laws. 用人话翻译：不要只靠模型“自觉”，把工作流拆成确定状态，在每个状态里只开放它该用的工具。

状态机不是新概念，但放在 Agent 上刚好戳中痛点

Statewright 做的事情并不神秘。它让你定义一个工作流，例如 planning → implementing → testing → completed。在 planning 状态里，Agent 只能读文件、搜索代码；进入 implementing 以后才允许 Edit/Write；到 testing 状态，Bash 可以用，但只能跑 pytest、cargo test、npm test 这类白名单命令。

项目 README 里的示例很直观：planning 只给 Read/Grep/Glob，implementing 允许 Read/Edit/Write 且限制 max_edit_lines、max_files_per_state，testing 才给 Bash，并且通过 guard 判断测试是否通过。官方的 workflow schema 也把这些字段明确写成结构化配置，而不是自然语言建议。

这点很关键。

自然语言提示词的问题是，它最终还是要被模型“理解”和“遵守”。状态机的问题是，工具调用在执行层被拦住。模型想在 planning 阶段写文件？调用会被拒绝。模型想在测试阶段跑一个不在白名单里的 shell 命令？也会被拒绝。技术描述听起来有点抽象，人话就是：把“你最好不要这样做”改成“你做不到”。

Statewright 的实现也不是纯概念。仓库主体是 Rust、Python、Shell 和 TypeScript，GitHub API 显示最近提交在 2026-05-14，仓库约 279 stars；目录里有 crates、plugins、templates 等实际代码。它通过 MCP/插件层接入 Claude Code、Codex、Cursor、opencode 等编码工具，核心 Rust engine 负责评估状态、转移、guard 和工具限制。换句话说，它不是又一个“Agent 最佳实践文档”，而是试图把最佳实践编译成运行时约束。

为什么这比“写更长的 system prompt”更像工程方案

我以前也习惯用长提示词管 Agent：先分析，不要急着改；每次只改小 diff；先跑测试；不要删除用户文件；遇到不确定先询问。问题是，提示词越长，越像团队的 Confluence 规范——看起来很完整，真出事时不一定拦得住。

Statewright 的优势是把约束分层了。

第一层是工具可见性。Agent 在某个状态下看到的工具变少，决策空间也变小。对大模型来说，这减少了乱试；对本地小模型来说，意义更大，因为它们本来就不擅长在 30 个工具里稳定选择。Statewright README 声称，在一个 5 题 SWE-bench 子集上，13.8GB 和 19.9GB 的本地模型在加入约束后从 2/10 提升到 10/10。这个结果当然不能等同于完整 SWE-bench——项目自己也注明只是 5 个任务的小样本——但方向是可信的：小模型最怕开放式任务，状态机把开放题改成了分步题。

第二层是命令与编辑限制。allowed_commands、max_edit_lines、max_files_per_state 这些字段看起来朴素，却是生产环境里最需要的东西。比如你可以允许 Agent 在 testing 阶段跑 pytest，但不允许它执行任意 curl | bash；允许它修 20 行，但不允许它顺手重写半个服务。很多 Agent 安全讨论会停留在“防 prompt injection”，但工程事故更多时候来自越权修改、过大 diff、错误 shell 命令和状态漂移。

第三层是显式转移。Agent 必须从 planning 转到 implementing，再到 testing。它不是在一个无限上下文里“凭感觉继续”，而是在被迫回答：现在是什么阶段？我为什么可以进入下一阶段？guard 是否满足？这会打断一种常见死循环：模型不断 reread 文件，却迟迟不编辑，或者测试失败后盲目继续改。

说白了，Statewright 不是让 Agent 更聪明，而是让任务环境更笨、更窄、更可控。很多时候，这反而是可靠性的来源。

但我不会把它直接神化成“Agent 可靠性终局”

它也有明显代价。

最直接的是工作流设计成本。你必须知道一个任务应该拆成哪些状态，每个状态开放哪些工具，哪些命令能跑，什么时候需要人工审批。如果工作流太松，护栏没意义；太紧，Agent 会卡在状态里。Statewright README 也提到，限制过强时需要 statewright_deactivate 作为逃生门。

第二个问题是，它更适合“流程明确”的任务，而不是探索性任务。修 bug、补测试、生成迁移脚本、执行 release checklist，这些都适合状态机；但如果你让 Agent 研究一个完全陌生的代码库、做架构探索、评估多种方案，过早限制工具可能会让它变笨。我的判断是：Statewright 应该放在从“探索”进入“执行”之后，而不是替代所有自由推理。

第三个问题是生态绑定。它现在对 Claude Code 的 quickstart 最成熟，也在文档里提到 Codex、Cursor、opencode 等集成方向。但不同工具的 hook 能力并不一致：有的能拦截 tool call，有的只能在 shell 层做包装，有的对 MCP 支持还不稳定。也就是说，Statewright 的思路可以迁移，但落地体验会高度依赖你用的 Agent harness。

还有一个小但真实的风险：状态机配置本身会变成新的复杂度来源。以前你 debug prompt，现在你还要 debug workflow。比如某个 guard 写错了，Agent 永远进不了 testing；某个命令白名单漏了参数，测试跑不起来；某个编辑行数限制太小，导致模型反复拆 patch。工程上没有免费的午餐，只是把不确定性从模型输出转移到了可审查的配置里。

我个人愿意接受这个转移。因为配置至少能 diff、review、版本化；模型的“自觉”不能。

它和 OpenClaw、AgentArmor 其实在解决同一个底层问题

Hypho Blog 之前写过 OpenClaw 的离散状态机架构：长时间运行的 AI 工作流，不能只靠一次 prompt 维持状态，必须把任务进度、失败恢复和执行阶段落到外部状态上。Statewright 更聚焦在编码 Agent，但哲学很像：LLM 负责生成建议，状态系统负责维持边界。

另一个相关方向是 AgentArmor 的多层安全框架。AgentArmor 更像安全防线清单：身份、权限、监控、隔离、审计；Statewright 则更像一套具体执行器：在每个状态拦工具、拦命令、拦大 diff。前者告诉你 Agent 系统应该有哪些安全层，后者把其中一部分变成了开发工作流里的硬约束。

这两个思路合在一起，才比较接近生产环境需要的样子：既要有宏观安全模型，也要有执行时的确定性控制。

我会怎么用它

如果是个人项目，我不会一上来就给所有任务套复杂状态机。那会把开发体验搞得很重。我会从三个高风险场景开始：

第一，自动修 bug。流程固定为 read-only 诊断、最小 diff 修复、指定测试、失败回滚或二次修改。这里状态机非常合适，因为“先读后改再测”本来就是人类工程师也该遵守的流程。

第二，依赖升级和迁移。比如升级框架、改数据库 schema、批量替换 API。Agent 很容易在这类任务里越改越大，所以 max_files_per_state、审批门和命令白名单很有价值。

第三，CI 失败自动修复。CI 环境最怕 Agent 执行任意命令，也最适合白名单：只允许读取日志、改特定目录、跑指定测试。状态机能把“自动修 CI”从危险实验变成可控流水线。

如果是团队项目，我会把 workflow 配置当成代码审查对象。谁能改状态机？哪些状态允许 Bash？哪些命令进入白名单？哪些 transition 需要人工审批？这些问题应该进入 repo，而不是藏在某个人的 Claude Code 配置里。

结论：Agent 可靠性不会只靠更强模型解决

我对 Statewright 的判断是：它不是所有 Agent 问题的答案，但它抓住了一个正确方向——把 Agent 从“会聊天的工具使用者”改造成“在流程约束下工作的执行者”。

这件事对未来一年会越来越重要。模型能力继续变强，Agent 能调用的工具也会越来越多；工具越多，自由度越高，事故半径也越大。继续往 prompt 里加“请小心”不够了。我们需要可执行、可审计、可版本化的边界。

状态机听起来老派，甚至有点不性感。但工程里很多可靠系统，最后靠的就是这些不性感的东西：有限状态、白名单、审批门、最小权限、失败回路。

Agent 也是系统。既然是系统，就别只给它写鸡汤，给它装刹车。

参考链接

每个 AI Agent 都在重复昨天的自己：一个开源记忆层想要改变这个

Mon, 27 Apr 2026 10:11:06 +0800

你有没有这种感觉：每天早上醒来，前一天学的东西大部分都忘了？

LLM 就是这样工作的。

每个对话 session，模型都是从零开始。它不记得你是谁，不记得你上次做了什么决定，更不记得那个方案三个月前就试过并且失败了。你花 20 分钟解释背景，下一个 session 又得重来一遍。

这不是 AI 的 bug——这是架构限制。大多数 Agent 的"记忆"，就是把整段对话历史塞进 prompt，靠上下文窗口撑着。贵、慢，而且换一个新 session 照样失忆。

Stash 想要解决这个问题。它的 slogan 很直接：Your AI has amnesia. We fixed it.

这个项目是做什么的

Stash 是一个开源的持久化记忆层，专门给 AI Agent 用。它不是一个聊天机器人，而是一个基础设施——在 Agent 和外部世界之间加了一层认知处理管道。

核心思路：Episodes become facts. Facts become patterns. Patterns become wisdom.

AI 的每一次对话、每一个决定、每一次成功和失败，都被记录下来，经过一个 8 阶段的管道，转化成结构化的知识。事实与事实之间建立关联，关联形成模式，模式沉淀为真正的理解。

原始对话
    ↓
Episode 记录（原始事件）
    ↓
Fact 提取（去掉了时间戳和情绪的事实）
    ↓
Relationship 建立（事实之间的连接）
    ↓
Pattern 检测（反复出现的模式）
    ↓
Goal Tracking（目标状态）
    ↓
Failure Pattern（失败教训）
    ↓
Hypothesis & Confidence（假设与置信度衰减）
    ↓
Wisdom（长期知识）

这个管道是增量的——每次运行只处理新数据，不会重复劳动。

它跟 RAG 不一样

你可能听说过 RAG（Retrieval Augmented Generation）。Stash 官方文档里有一段话说得很清楚：

RAG 是一个聪明的搜索算法，但它不是记忆。它不记得你的对话，不学习，不了解你。每次问答都是从零开始——只是一个更高级的文件搜索引擎。

Stash 学的是你 Agent 经历过的一切：对话、决定、成败。它不需要你写任何东西，它自己从经验里推断出来。

本质上，RAG 是搜索过去的文档，Stash 是记住过去的经历。一个是图书馆，一个是经验。

MCP 原生支持

Stash 通过 MCP（Model Context Protocol）提供服务，任何支持 MCP 的 Agent 都可以直接接入。

# Docker 一键启动
git clone https://github.com/alash3al/stash.git
cd stash
cp .env.example .env   # 填入你的 API key 和模型
docker compose up

支持的 Agent 包括：Claude Desktop、Cursor、Windsurf、Cline、Continue、OpenAI Agents、Ollama、OpenRouter——只要支持 MCP 就能用。

它提供 28 个工具，覆盖从最基础的 remember（记住）和 recall（回忆）到高级的因果链推理、矛盾检测、假设管理。

Namespace 层级记忆

最有意思的设计是 Namespace 层次结构。

每个 Agent 可以有多个命名空间，比如 /self（自我认知）、/projects/stash（某个项目的上下文）、/projects/cartona。读取 /projects 会自动包含下面所有子路径的记忆。

配合 init 命令，Stash 会自动创建 /self 命名空间，Agent 用自己的记忆层来构建自身能力、局限和偏好的模型——Agent 知道自己知道什么，也知道自己不知道什么。

实际效果

根据项目在 LoCoMo-10 基准上的测试（1534 个 QA 对，10 个多轮对话），Stash 实现了 59% 的 Recall@5，比 Zep Cloud 的 28% 高出一倍多。

当然，这个数字只是一个基准。真正有价值的是：你的 Agent 不会再在同一个地方摔倒两次。

选型建议

如果你在搭建需要多轮协作的 Agent 系统，比如：

需要跨 session 保持上下文的技术助手
研究 Agent（需要积累文献阅读记忆）
代码生成 Agent（需要记住项目规范和历史决策）

Stash 值得一试。它的核心优势是：不需要改动 Agent 本身的代码，只需要加一层 MCP 集成。

对于需要完全私有化的场景，它支持 Ollama 本地模型 + PostgreSQL + pgvector，完全离线可用。

但需要注意：Stash 目前还很新（2026-04-24 创建，287 stars），8 阶段管道的实际效果需要你在真实项目中验证。如果你的 Agent 场景比较简单，可能不需要这么重的记忆基础设施。

信源：

Stash GitHub: https://github.com/alash3al/stash
Stash 官网: https://alash3al.github.io/stash/
HN 讨论: https://news.ycombinator.com/item?id=44133706
LoCoMo-10 基准: https://github.com/snap-research/locomo

多 AI 协作的熵增困境：Forge 编排层设计复盘

Sat, 11 Apr 2026 09:00:00 +0800

引言：当多 AI 并行成为默认

2023 到 2025 年间，AI 编程工具完成了从自动补全引擎到自主 Agent 的进化。Claude Code 能阅读整个代码库、推理架构约束并实现多文件功能。Codex CLI 可以执行 Shell 命令、运行测试并根据失败信息迭代。Gemini CLI 能分析大型代码库并生成全面的重构计划。

每个工具单独使用都足够强大。但当两个或更多工具并发运行时——这在工程团队尝试跨特性分支并行化 AI 辅助开发时越来越常见——问题出现了：瓶颈从「AI 能否写代码」转移到了「多个 AI 能否在同一代码库上协同工作而不互相摧毁」。

答案在大多数团队中是「不能」。

本文以 NXTG.AI 开源的 Forge 项目¹为锚点，用熵增理论框架分析多 AI 协作的系统性困境：为什么三个 Agent 并发编辑同一个仓库会产生 merge 冲突、知识蒸发和架构漂移这三种必然的熵增现象，以及 Forge 的文件锁、知识飞轮和漂移检测三个核心机制如何构成一个逆向熵增的工程系统。

1. 多 AI 协作的三种熵增现象

热力学第二定律告诉我们：孤立系统的熵永不自发减少。多 AI 协作系统在并发运行时就是一个典型的孤立系统——多个自主 Agent 在没有协调层的情况下操作同一个共享资源（代码库），信息熵自发增大，表现为三种具体的系统故障。

1.1 Merge 冲突：信息位叠加的不可逆损耗

两个 Agent 同时编辑同一个文件，各自产出了一系列修改。当这些修改最终汇聚到 Git 时，产生了不可调和的冲突节点。这不是 Git 的缺陷，而是两个独立信息流在同一个时空中叠加后产生的熵——两个 Agent 在各自的上下文中做出了局部最优决策，这些决策在更高层次上却是互斥的。

从信息论角度，每个 Agent 的编辑可以看作一次信息压缩操作。在单 Agent 场景下，上下文窗口提供了足够的历史信息来保证压缩的一致性。在并发场景下，上下文窗口相互独立，信息压缩失去了共享参考系，熵增体现在合并时的信息损耗——必须丢弃一个 Agent 的部分或全部工作。

1.2 知识蒸发：跨会话信息的热力学逃逸

Agent A 在一次会话中发现了数据库迁移必须在 API 服务器启动前运行的约束条件。Agent B 运行在完全独立的上下文窗口中，对 Agent A 的发现毫无感知，按错误顺序部署了 API 服务器并花费 20 分钟调试由此产生的问题。

这对应热力学中的能量逃逸。在人类团队中，这个问题通过沟通机制解决：站会、Slack 频道、共享文档。在多 Agent 系统中，每个 Agent 的上下文是一个封闭系统，会话结束即系统「热寂」——所有积累的知识随上下文窗口销毁而消失。熵增体现在跨会话信息传递的失效。

1.3 架构漂移：局部最优导致的全局混沌

没有统一规划的情况下，每个 Agent 都在做局部优化。Agent A 重构了认证模块使用新设计模式。Agent B 对此毫不知情，用旧模式实现了新功能。Agent C 引入了它从训练数据中学到的第三种模式。代码库在无人察觉的情况下逐渐偏离预定架构，每次并发会话都在累积隐性的技术债务。

这类似于热力学中湍流的产生：系统各部分遵循局部规则运行，但由于缺乏全局协调，产生了宏观层面的无序结构。架构漂移的可怕之处在于它的渐进隐蔽性——每个 Agent 的行为单独看都合理，累积效果却是系统性的混乱。

graph TD
    A["多 Agent 并发运行
共享代码库"] --> B["Merge 冲突
信息位叠加损耗"]
    A --> C["知识蒸发
跨会话信息逃逸"]
    A --> D["架构漂移
局部最优 ≠ 全局有序"]
    
    B --> E["系统熵增
协作效率降低"]
    C --> E
    D --> E
    
    style B fill:#ff6b6b,color:#fff
    style C fill:#ffa94d,color:#fff
    style D fill:#ffd43b,color:#333
    style E fill:#e64980,color:#fff

2. Forge 的逆向熵增工程系统

Forge 是一个用 Rust 编写的编排层（3MB 单二进制文件，零运行时依赖），通过 MCP（Model Context Protocol）协议协调 Claude Code、Codex CLI 和 Gemini CLI¹。它提供了三个核心机制来对抗上文分析的三种熵增现象，构成一个逆向熵增的闭环工程系统。

2.1 文件级锁：解决 merge 冲突的结构性屏障

Forge 在 state.json 中维护一个 active_locks 表。当 Agent 通过 MCP 接口声称一个任务时，Forge 会检查目标文件是否已被其他任务锁定。如果存在锁冲突，任务声称被拒绝，并返回清晰的锁定信息（哪个 Agent 持有锁、在做哪个任务）。

这相当于在热力学系统中引入了一个麦克斯韦妖——在并发写入发生之前就进行仲裁，而不是事后检测冲突。从熵的角度，锁机制将原本不可控的信息叠加过程转化为一个有序的序列化过程，每次只有一个 Agent 能写入特定文件，系统的信息熵保持在受控范围内。

{
  "active_locks": {
    "src/auth/login.ts": {
      "agent": "claude-code-1",
      "task_id": "task-003",
      "acquired_at": "2026-02-08T14:30:00Z"
    },
    "src/auth/register.ts": {
      "agent": "claude-code-1",
      "task_id": "task-003",
      "acquired_at": "2026-02-08T14:30:00Z"
    }
  }
}

Agent 通过 forge_claim_task MCP 工具获取任务同时获得文件锁，完成后通过 forge_complete_task 释放锁。这是** cooperative lock**（合作锁）——绕过 MCP 接口的 Agent 仍可直写文件，但对于所有通过标准工具运行的 Agent，冲突在结构上已不可能发生。

2.2 知识飞轮：跨会话信息的持久化存储

Forge 在 .forge/knowledge/ 目录下维护一个结构化的知识语料库，存储决策、模式、踩坑记录和经验教训。任何 Agent 在任何会话中都可以调用 forge_capture_knowledge 存储新知识，调用 forge_get_knowledge 在做决策前查询历史积累。

这个机制对应热力学中的能量存储与转换。知识飞轮将原本在会话结束时「热寂」的信息保存到持久化存储中，使下一次会话能够从上一次会话的终点继续，而非从零开始。每次知识捕获都减少了未来会话的探索空间（降低不确定性），对应系统熵的主动降低。

知识飞轮的关键设计是跨 Agent 普适性——Claude Code 捕获的知识可以被 Codex CLI 查询使用。这意味着组织学习不再依赖个体（单个 Agent），而是沉淀为共享基础设施。

2.3 漂移检测：架构层的一致性监控

Forge 的 forge_check_drift 工具将当前代码变更和项目规范发送给配置的大脑引擎（支持免费的启发式 RuleBasedBrain 或 LLM 驱动的 OpenAIBrain），进行对齐评分。这个检查可以在任何时刻由 Agent 或人类调用，返回五维治理评分：测试覆盖、安全、文档、架构对齐和 Git 卫生。

漂移检测是一个负反馈控制器。当系统熵增导致架构漂移时，检测机制主动识别偏差并报告给操作者。在自动化场景下，这相当于给系统安装了一个「温度计」——熵增可测量、可报警、可干预。

配合五维健康检查（forge_get_health），Forge 提供了持续监控 + 主动检测的双重保障，使多 Agent 系统的架构熵始终处于可观测状态。

3. 三个机制的系统论视角

将 Forge 的三个核心机制放在一起看，它们构成了一个完整的逆向熵增系统：

graph LR
    subgraph 熵增源
        L1["并发写入
文件冲突"]
        L2["会话结束
知识蒸发"]
        L3["局部优化
架构漂移"]
    end
    
    subgraph Forge对策
        F1["文件锁
序列化写入"]
        F2["知识飞轮
持久化存储"]
        F3["漂移检测
负反馈控制"]
    end
    
    L1 -->|"结构性预防"| F1
    L2 -->|"信息持久化"| F2
    L3 -->|"主动监控"| F3
    
    F1 --> O["多 Agent 协作
信息熵受控"]
    F2 --> O
    F3 --> O
    
    style L1 fill:#ff6b6b,color:#fff
    style L2 fill:#ffa94d,color:#fff
    style L3 fill:#ffd43b,color:#333
    style F1 fill:#69db7c,color:#fff
    style F2 fill:#69db7c,color:#fff
    style F3 fill:#69db7c,color:#fff
    style O fill:#4dabf7,color:#fff

值得注意的是，Forge 的状态存储在 .forge/ 目录下的单个 JSON 文件中——人类可读、Git 可追踪、无运维开销。这意味着协调状态本身成为了项目知识的一部分，可以随代码库一起版本化、回滚和审查。

4. 对 AI 工程实践的启示

Forge 白皮书的核心命题值得所有正在引入 AI 辅助编程的团队思考：当 AI 从工具变成协作者时，工程系统的复杂度从「如何用 AI」变成了「如何让多个 AI 协同工作」。

文件锁机制提醒我们：在多 Agent 环境中，冲突预防优于冲突解决。Git 的 merge 冲突检测是事后补救，文件锁是事前预防。对于高频并发的 AI 工作流，这个优先级翻转是架构设计的关键。

知识飞轮机制揭示了一个更深层的转变：AI 编程的下一阶段不是更强大的单体 Agent，而是能够积累组织知识的 Agent 协作网络。单体 Agent 的上下文窗口是有限的，但跨 Agent 的知识持久化使学习能够复合增长。

漂移检测机制则将 AI 编程中的架构治理从隐性实践变成了显式工程：测试覆盖、安全扫描、文档完整性这些传统 DevOps 指标，现在需要与架构对齐一起纳入 AI 感知的治理框架。

这三个方向——冲突预防优先、知识复合积累、架构治理显式化——代表了 AI 工程化走向成熟的三个关键节点。

结语

多 AI 并发协作的困境，本质是一个信息热力学问题：多个自主信息处理单元在无协调的情况下操作共享资源时，系统熵必然自发增大。Forge 的贡献在于，它没有试图让每个 Agent 更聪明（这是模型厂商的工作），而是在 Agent 之上构建了一个协调基础设施，用文件锁、知识持久化和漂移检测三个工程机制对抗熵增的自然趋势。

开源地址：https://github.com/nxtg-ai/forge-orchestrator

NXTG.AI, “The Forge Whitepaper: Multi-AI Orchestration for Software Development”, 2026-02-10. https://nxtg.ai/insights/forge-whitepaper ↩︎ ↩︎