Diffusion Model

真实案例引入 2025 年后，扩散语言模型（Diffusion Language Model，DLM）成为了 LLM 架构探索的热门方向。与自回归（Autoregressive，AR）模型逐步生成 token 不同，DLM 通过逐步去噪的方式并行生成整个序列，理论上能带来更高的硬件利用率和推理吞吐量。然而在实践中，开发者们很快发现了一个根本性问题：扩散模型的生成质量总是落后于同规模的自回归模型。这一问题在真实部署场景中尤为突出。以 SGLang 团队在 2024 年的基准测试为例，SDAR-8B 在 LiveCodeBench 上的通过率仅为 16.6%，而 Qwen3-8B（AR 模型）则达到了 50.3%——差距超过 3 倍。即便在数学推理（MATH-500）上，SDAR 的 78.6% 也明显低于 AR 的 95.8%。质量差距使得企业在生产环境中选择扩散模型时顾虑重重。 I-DLM（Introspective Diffusion Language Models）的研究者将这个质量 gap 归因于一个被忽视的问题：自省一致性（Introspective Consistency）。AR 模型天生具备这一特性——模型会认可自己的生成结果（自省接受率约 0.98），而标准扩散模型的这个指标仅为 0.57-0.70。这种"自我怀疑"导致扩散模型难以在复杂推理任务上稳定发挥。框架核心拆解自省一致性：问题的根源 I-DLM 论文将自省接受率定义为：模型在位置 i 生成的 token，在后续去噪步骤中仍然被模型认可的概率。AR 模型由于其因果注意力机制和逐 token 生成的特性，天生具备高自省一致性——模型"相信"自己逐步生成的内容。扩散模型的问题在于双向注意力和多 token 并行生成：模型在某个位置生成了一个 token，但后续步骤中可能因为看到更多上下文而"反悔"，导致生成结果不一致。这种不一致性在长推理链（如数学证明、代码生成）中被放大，最终表现为质量落后。 Introspective Strided Decoding（ISD） I-DLM 提出了 ISD 算法，在单次前向传播中同时完成生成和验证两个操作： # ISD 核心逻辑伪代码 # 每次前向传播: # 1. 从 MASK 位置生成 N 个新 token（proposal 分布 q） # 2. 验证之前生成的位置（anchor 分布 p） # 3. 通过 min(1, p(x)/q(x)) 决定接受/拒绝 # p/q 接受准则数学保证输出符合基础 AR 分布关键在于 p/q 接受准则：通过比较 proposal 分布和 anchor 分布的概率比值，ISD 能够数学上保证最终输出与目标 AR 分布一致。这解决了扩散模型"自我不一致"的核心问题。 ...