Prompt Engineering

大模型的本质：一只戴着数学面具的随机猴子在深入 ERA 框架之前，需要先接受一个反直觉的事实：大语言模型本质上是一个极其复杂的"下一个词预测器"。它的工作原理，从信息论角度看，和一只在键盘上随机敲击的猴子没有本质区别——区别只在于，这只猴子敲的每一个键，都受到了前面所有键的概率分布约束。当模型说"我认为答案是…"，它实际上是在说：“在看过 trillions 个token之后，根据我学到的语言统计规律，在当前位置的词表中，每个词作为下一个词出现的概率分别是…"。它不是"思考"后得出结论，而是穷举了所有可能路径的概率加权后坍缩到一个结果。这个过程在信息论中有一个精确的量：熵（Entropy）。熵描述的是一个随机变量或过程的不确定性。LLM 的输出在没有任何约束的情况下，熵是极高的——模型几乎可以输出任何合理的词序列中的任何一个。这种高熵状态，就是我们通常说的"模型在胡说八道"或"幻觉”（hallucination）的本质：它不是在说谎，它只是在忠实地履行一个概率预测器的职责，只是这个职责恰好在某些边界情况下产生了我们不想要的结果。熵减控制的本质：把"随机漫步"变成"有轨电车" ERA（Entropy-Reduction Architecture，熵减提示词架构）的核心命题是：如果我们把 LLM 的输出过程看作一个熵减过程——从高熵的不确定状态，经过一系列"约束过滤器"逐步压缩到低熵的确定输出——那么 prompt 工程就不再是一门玄学，而是一门可以系统化设计的控制理论。把 LLM 放进一个需要高质量输出的业务流程时，我们实际上是在设计一个控制系统。系统的输入是用户模糊的、充满噪声的自然语言，系统的输出应该是具体的、确定的、符合业务需求的内容。而这个控制系统的设计，本质上就是熵减过滤器的排列组合。五层过滤器的工程拆解 ERA 提出了一个五层过滤模型，每一层负责移除特定类型的"熵增噪声"，最终把输出压缩到业务可接受的范围。第一层：身份域（Identity Domain）——设定基础概率分布这一层解决的问题是：“以什么身份、什么视角、什么基线概率来回答问题？” 很多人以为 prompt 的角色设定只是一个风格技巧，但 ERA 的视角完全不同。角色设定实际上是给模型的概率分布打了一个基底偏移（bias shift）。没有身份设定时，模型对所有输出的预设是"面向普通互联网用户的通用助手"。加上"你是一个资深金融风控分析师，有 15 年信用评估经验"之后，模型的输出概率分布发生了根本性偏移——“杠杆收购"“债务覆盖率"“Z-Score"这类专业术语的出现概率急剧上升，而"太棒了！““让我帮你分析一下"这类口语化表达的出现概率急剧下降。这就是为什么同样的问题，“让 ChatGPT 用小学生能听懂的话解释量子力学"和"让量子物理教授解释量子力学"会给出截然不同的答案。不是模型能力变了，是基底概率分布变了。第二层：知识域（Knowledge Domain）——注入确定性事实输入这一层解决的问题是：“在什么事实基础上回答？” LLM 的知识有两大缺陷：知识的截止日期性（不知道训练之后的最新信息）和知识的概率性（对模糊边界的记忆是权重分布，而不是精确事实）。知识域的设计引入了 RAG（检索增强生成）或结构化上下文注入技术，本质上是在回答之前先把一批确定性的事实强制塞入模型的上下文，让模型在回答时以这些事实为条件，而不是以它自己模糊的权重记忆为条件。金融场景中一个常见做法是：在系统 prompt 中明确注入"以下是今天的市场数据：USD/CNY = 7.23，BTC = 672,000…"——模型在这个上下文条件下回答时，不会再去依赖它训练时学到的、可能已经过时的汇率记忆，而是基于你注入的精确数据做推理。第三层：算法域（Algorithm Domain）——规定处理逻辑的步进轨道这一层解决的问题是：“用什么样的逻辑流程处理输入？” 大多数"prompt 不 work"的问题出在这一层——给模型一个模糊的目标（如"帮我分析一下这个产品”），然后期望它自动找到正确的分析路径。但模型在这种情况下会做随机游走，每次运行结果可能都不一样。算法域的典型设计模式包括： Chain-of-Thought（CoT）：强制模型输出推理步骤，而不只是最终答案。本质上是把一个高熵的"直接输出"拆解成多个低熵的"步骤输出”，中间每一步都可以被校验 Tree-of-Thought（ToT）：在复杂问题空间允许模型探索多条推理路径，每条路径都是独立的低熵序列，最后通过某种评分机制选出最优路径 DSPy 框架的编译器思路：把 prompt 逻辑本身变成一个可以优化的程序，而不是固定的文本第四层：边界域（Boundary Domain）——切断非法概率区间这一层解决的问题是：“什么绝对不能说、不能做？” 边界域是大多数 prompt 教程中最忽视、但实际上最关键的一层。LLM 的输出空间是巨大的，在某些区域（涉及违法行为、敏感内容、专业建议边界等），即使其他所有层都设计得完美，只要模型在这些高风险区域内的概率不为零，实际运行时就有可能触发——特别是在对抗性输入或罕见 edge case 出现时。 ...