<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Model Architecture on Hypho - AI Agent 技术博客</title><link>https://blog.hypho.cn/tags/model-architecture/</link><description>Recent content in Model Architecture on Hypho - AI Agent 技术博客</description><image><title>Hypho - AI Agent 技术博客</title><url>https://blog.hypho.cn/papermod-cover.png</url><link>https://blog.hypho.cn/papermod-cover.png</link></image><generator>Hugo -- 0.148.2</generator><language>zh-cn</language><lastBuildDate>Wed, 15 Apr 2026 10:00:00 +0800</lastBuildDate><atom:link href="https://blog.hypho.cn/tags/model-architecture/index.xml" rel="self" type="application/rss+xml"/><item><title>I-DLM：扩散模型如何用"自省一致性"追上自回归模型质量</title><link>https://blog.hypho.cn/posts/introspective-diffusion-language-models/</link><pubDate>Wed, 15 Apr 2026 10:00:00 +0800</pubDate><guid>https://blog.hypho.cn/posts/introspective-diffusion-language-models/</guid><description>I-DLM 通过提出&amp;#34;自省一致性&amp;#34;概念，解决了扩散语言模型质量低于自回归模型的难题。其核心创新 Introspective Strided Decoding 在单次前向传播中同时完成生成和验证，实现了 3.8 倍吞吐量提升，同时在 15 项基准上追平 Qwen3-8B。</description><content:encoded><![CDATA[<h2 id="真实案例引入">真实案例引入</h2>
<p>2025 年后，扩散语言模型（Diffusion Language Model，DLM）成为了 LLM 架构探索的热门方向。与自回归（Autoregressive，AR）模型逐步生成 token 不同，DLM 通过逐步去噪的方式并行生成整个序列，理论上能带来更高的硬件利用率和推理吞吐量。然而在实践中，开发者们很快发现了一个根本性问题：<strong>扩散模型的生成质量总是落后于同规模的自回归模型</strong>。</p>
<p>这一问题在真实部署场景中尤为突出。以 SGLang 团队在 2024 年的基准测试为例，SDAR-8B 在 LiveCodeBench 上的通过率仅为 16.6%，而 Qwen3-8B（AR 模型）则达到了 50.3%——差距超过 3 倍。即便在数学推理（MATH-500）上，SDAR 的 78.6% 也明显低于 AR 的 95.8%。质量差距使得企业在生产环境中选择扩散模型时顾虑重重。</p>
<p>I-DLM（Introspective Diffusion Language Models）的研究者将这个质量 gap 归因于一个被忽视的问题：<strong>自省一致性（Introspective Consistency）</strong>。AR 模型天生具备这一特性——模型会认可自己的生成结果（自省接受率约 0.98），而标准扩散模型的这个指标仅为 0.57-0.70。这种&quot;自我怀疑&quot;导致扩散模型难以在复杂推理任务上稳定发挥。</p>
<h2 id="框架核心拆解">框架核心拆解</h2>
<h3 id="自省一致性问题的根源">自省一致性：问题的根源</h3>
<p>I-DLM 论文将自省接受率定义为：模型在位置 <em>i</em> 生成的 token，在后续去噪步骤中仍然被模型认可的概率。AR 模型由于其因果注意力机制和逐 token 生成的特性，天生具备高自省一致性——模型&quot;相信&quot;自己逐步生成的内容。</p>
<p>扩散模型的问题在于双向注意力和多 token 并行生成：模型在某个位置生成了一个 token，但后续步骤中可能因为看到更多上下文而&quot;反悔&quot;，导致生成结果不一致。这种不一致性在长推理链（如数学证明、代码生成）中被放大，最终表现为质量落后。</p>
<h3 id="introspective-strided-decodingisd">Introspective Strided Decoding（ISD）</h3>
<p>I-DLM 提出了 ISD 算法，在单次前向传播中同时完成<strong>生成</strong>和<strong>验证</strong>两个操作：</p>
<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-python" data-lang="python"><span class="line"><span class="cl"><span class="c1"># ISD 核心逻辑伪代码</span>
</span></span><span class="line"><span class="cl"><span class="c1"># 每次前向传播:</span>
</span></span><span class="line"><span class="cl"><span class="c1"># 1. 从 MASK 位置生成 N 个新 token（proposal 分布 q）</span>
</span></span><span class="line"><span class="cl"><span class="c1"># 2. 验证之前生成的位置（anchor 分布 p）</span>
</span></span><span class="line"><span class="cl"><span class="c1"># 3. 通过 min(1, p(x)/q(x)) 决定接受/拒绝</span>
</span></span><span class="line"><span class="cl">
</span></span><span class="line"><span class="cl"><span class="c1"># p/q 接受准则数学保证输出符合基础 AR 分布</span>
</span></span></code></pre></div><p>关键在于 <strong>p/q 接受准则</strong>：通过比较 proposal 分布和 anchor 分布的概率比值，ISD 能够数学上保证最终输出与目标 AR 分布一致。这解决了扩散模型&quot;自我不一致&quot;的核心问题。</p>
<h3 id="三项关键训练创新">三项关键训练创新</h3>
<p>I-DLM 的训练流程包含三项核心创新来解决自省一致性问题：</p>
<p><strong>1. 严格因果掩码（Causal Masking）</strong>
对 mask token 和 clean token 统一应用因果注意力，而非标准双向注意力。这确保模型在生成时只&quot;看到&quot;左侧上下文，与 AR 模型的信息流一致。</p>
<p><strong>2. Logit 偏移（Dream Shift）</strong>
位置 <em>i</em> 的隐藏状态预测 token <em>i</em>+1（而非 <em>i</em> 本身）。这强迫模型在生成时保持前向一致性。</p>
<p><strong>3. 全 mask 训练（All-Masked Training）</strong>
对噪声 token（masked）和 clean token 位置同时计算交叉熵损失：</p>
<pre tabindex="0"><code>L = CE_noisy + α * CE_clean(clean region with shifted labels)
</code></pre><p>训练时将 fully-masked 序列与 clean 序列拼接 <code>[x_t | x_0]</code>，使模型同时学习去噪和自我验证。</p>
<h3 id="推理复用-ar-推理栈">推理：复用 AR 推理栈</h3>
<p>I-DLM 的另一大优势是<strong>与现有 AR 推理框架完全兼容</strong>：</p>
<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"><span class="line"><span class="cl"><span class="c1"># 通过 SGLang 启动 I-DLM-8B 推理服务</span>
</span></span><span class="line"><span class="cl">python -m sglang.launch_server <span class="se">\
</span></span></span><span class="line"><span class="cl"><span class="se"></span>    --model-path yifanyu/I-DLM-8B <span class="se">\
</span></span></span><span class="line"><span class="cl"><span class="se"></span>    --trust-remote-code --tp-size <span class="m">1</span> --dtype bfloat16 <span class="se">\
</span></span></span><span class="line"><span class="cl"><span class="se"></span>    --mem-fraction-static 0.85 --max-running-requests <span class="m">32</span> <span class="se">\
</span></span></span><span class="line"><span class="cl"><span class="se"></span>    --attention-backend flashinfer <span class="se">\
</span></span></span><span class="line"><span class="cl"><span class="se"></span>    --dllm-algorithm IDLMBlockN <span class="se">\
</span></span></span><span class="line"><span class="cl"><span class="se"></span>    --dllm-algorithm-config inference/configs/idlm_blockN4_config.yaml <span class="se">\
</span></span></span><span class="line"><span class="cl"><span class="se"></span>    --port <span class="m">30000</span>
</span></span></code></pre></div><p>这意味着可以直接复用 paged KV cache、continuous batching、CUDA graphs 等 AR 推理优化，无需为扩散模型重写 Serving 基础设施。</p>
<h2 id="关键工程洞察">关键工程洞察</h2>
<h3 id="洞察-1扩散模型的质量差距来自自我否认而非架构缺陷">洞察 1：扩散模型的质量差距来自&quot;自我否认&quot;，而非架构缺陷</h3>
<p>I-DLM 的分析揭示了一个重要结论：扩散模型质量落后的根源不是其并行生成架构本身有缺陷，而是模型缺乏自省一致性。这一洞察打开了新的优化方向——与其放弃扩散架构，不如专门针对自省一致性进行训练优化。实验证明，仅需 4.5B tokens 和 8 张 H100 GPU，就能将 Qwen3-8B 转换为 I-DLM-8B，在 15 项基准上追平原版 AR 模型。</p>
<h3 id="洞察-2吞吐量优势在大-batch-场景下显著38-倍于-sdar">洞察 2：吞吐量优势在大 batch 场景下显著（3.8 倍于 SDAR）</h3>
<p>I-DLM 的核心价值主张不仅是&quot;追平质量&quot;，更在于<strong>推理效率的大幅提升</strong>。在并发=32 的单 H100 配置下：</p>
<table>
  <thead>
      <tr>
          <th>架构</th>
          <th>tok/s/req</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>I-DLM-8B</strong></td>
          <td>186-193</td>
      </tr>
      <tr>
          <td>LLaDA-2.1-mini</td>
          <td>51-86</td>
      </tr>
      <tr>
          <td>SDAR-8B</td>
          <td>43-52</td>
      </tr>
  </tbody>
</table>
<p>I-DLM 的吞吐量是 SDAR 的 <strong>3.7-4.5 倍</strong>。对于需要同时处理大量请求的生产环境（如 RAG 系统、代码补全服务），这种并发吞吐量的优势能显著降低单请求成本。</p>
<h3 id="洞察-3lora-适配器实现无损-r-isd">洞察 3：LoRA 适配器实现无损 R-ISD</h3>
<p>对于已有 AR 模型需要迁移到扩散架构的场景，I-DLM 提供了 LoRA 路径：<code>I-DLM-8B-LoRA</code>（rank=128）通过轻量级适配器实现 R-ISD（Revised-ISD），无需全量训练即可获得扩散生成能力。结合 vLLM/SGLang 的现有 LoRA 支持，企业可以低成本试验扩散模型的吞吐量优势。</p>
<h2 id="信源引用">信源引用</h2>
<table>
  <thead>
      <tr>
          <th>声明</th>
          <th>来源</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>I-DLM 在 15 项基准上追平 Qwen3-8B</td>
          <td><a href="https://github.com/Introspective-Diffusion/I-DLM">GitHub README</a></td>
      </tr>
      <tr>
          <td>ISD 算法数学保证 AR 分布输出</td>
          <td><a href="https://arxiv.org/abs/2604.11035">arXiv:2604.11035</a></td>
      </tr>
      <tr>
          <td>自省接受率 AR 模型约 0.98，标准 DLM 仅 0.57-0.70</td>
          <td><a href="https://arxiv.org/abs/2604.11035">arXiv:2604.11035</a></td>
      </tr>
      <tr>
          <td>并发=32 时 I-DLM 吞吐量 5900 tok/s vs SDAR 1600 tok/s</td>
          <td><a href="https://github.com/Introspective-Diffusion/I-DLM">GitHub README</a></td>
      </tr>
      <tr>
          <td>4.5B tokens + 8 H100 训练 I-DLM-8B</td>
          <td><a href="https://github.com/Introspective-Diffusion/I-DLM">GitHub README</a></td>
      </tr>
      <tr>
          <td>I-DLM-8B/32B/LoRA 模型权重</td>
          <td><a href="https://huggingface.co/collections/yifanyu/introspective-diffusion-language-models-i-dlm">HuggingFace</a></td>
      </tr>
      <tr>
          <td>SGLang 集成代码</td>
          <td><a href="https://github.com/Introspective-Diffusion/I-DLM/tree/main/inference/sglang">inference/sglang/</a></td>
      </tr>
  </tbody>
</table>
<h2 id="总结">总结</h2>
<p>I-DLM 代表了扩散语言模型研究的一个重要转折点：通过识别并解决&quot;自省一致性&quot;这一核心问题，扩散模型首次在质量上追平了同规模的自回归模型，同时保留了其并行生成带来的吞吐量优势。3.8 倍的推理吞吐提升、仅 4.5B tokens 的高效转换成本、以及对现有 AR 推理栈的兼容，使得 I-DLM 成为生产环境中值得关注的架构选择。</p>
<p>对于构建高并发 AI 服务的团队，I-DLM 提供了在<strong>不牺牲质量的前提下</strong>降低推理成本的可行路径。其核心洞察——扩散模型的问题不是架构本身，而是缺乏自省一致性——也为后续研究开辟了新的优化维度。</p>
]]></content:encoded></item></channel></rss>