<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Model Merging on Hypho - AI Agent 技术博客</title><link>https://blog.hypho.cn/tags/model-merging/</link><description>Recent content in Model Merging on Hypho - AI Agent 技术博客</description><image><title>Hypho - AI Agent 技术博客</title><url>https://blog.hypho.cn/papermod-cover.png</url><link>https://blog.hypho.cn/papermod-cover.png</link></image><generator>Hugo -- 0.148.2</generator><language>zh-cn</language><lastBuildDate>Mon, 15 Jun 2026 10:12:57 +0800</lastBuildDate><atom:link href="https://blog.hypho.cn/tags/model-merging/index.xml" rel="self" type="application/rss+xml"/><item><title>里约政府发布的 397B 大模型，被证明是别人的模型加了个壳</title><link>https://blog.hypho.cn/posts/llm-model-merge-detection-rio-397b/</link><pubDate>Mon, 15 Jun 2026 10:12:57 +0800</pubDate><guid>https://blog.hypho.cn/posts/llm-model-merge-detection-rio-397b/</guid><description>巴西里约热内卢市政府高调发布的 Rio-3.5-Open-397B 大模型被 Nex-AGI 用权重共线性分析和身份探针两种独立方法证明是 Nex-N2-Pro 与 Qwen3.5-397B 的 6:4 线性混合。本文拆解检测原理、mergekit 模型合并生态、开源模型溯源技术挑战，以及开源权重如何成为 AI 行业问责的天然监督机制。</description><content:encoded><![CDATA[<p>上周，里约热内卢市政府高调发布了名为 Rio-3.5-Open-397B 的大语言模型，官方说法是&quot;由 IplanRIO（里约市政 IT 公司）自主训练的 397B 参数模型&quot;。模型发布后，巴西媒体一片欢腾——这可是全球首个由市政当局发布的前沿级 AI 模型，还号称在多项基准测试中超过了 Qwen 3.7 Plus。</p>
<p>然后，48 小时之内，Nex-AGI（一家来自上海的 AI 实验室）在 GitHub 上发了一条 issue，用两种完全独立的方法证明：<strong>这个模型的每一个权重，都是 Nex-N2-Pro 和 Qwen3.5-397B-A17B 按 6:4 比例线性混合的结果。</strong></p>
<p>不是微调，不是蒸馏，是直接把两个模型的权重按比例倒在一起。</p>
<h2 id="身份探针去掉系统提示词后模型自己说了实话">身份探针：去掉系统提示词后，模型自己说了实话</h2>
<p>Rio-3.5-Open-397B 附带了一个硬编码的系统提示词：&ldquo;You are Rio, a large language model developed by IplanRIO。&ldquo;这个提示词在每次推理时都会被注入，强制模型&quot;记住&quot;自己的身份。</p>
<p>Nex-AGI 做了一件很简单的事：<strong>把这个系统提示词删掉，然后问模型&quot;你是谁&rdquo;。</strong></p>
<p>他们在去除了身份强制的情况下，向 Rio 的部署端点发送了 120 次身份提问。结果如下：</p>
<ul>
<li>模型回答&quot;我是 Nex&quot;的比例：<strong>79.2%</strong>（95/120 次）</li>
<li>模型回答&quot;我是 Nex-AGI 的&quot;比例：<strong>73.3%</strong>（88/120 次）</li>
<li>模型回答&quot;我是 Rio&quot;的比例：<strong>0.0%</strong>（0/120 次）</li>
</ul>
<p>零。一次都没有。</p>
<p>更离谱的是，模型还能逐字背出 Nex-AGI 的组织背景——&ldquo;Nex-AGI is a large-model ecosystem alliance, jointly built by the Shanghai Innovation Institute（上海创智学院）&hellip;&quot;——这段文字是 Nex-AGI 在训练自己的模型时注入的专属身份数据，出现在数百条训练样本中。</p>
<p>一个被宣传为&quot;里约市政府自主研发&quot;的模型，摘掉面具后四次有三次会说自己是上海某实验室的产品，这已经不是&quot;巧合&quot;能解释的了。</p>
<h2 id="权重共线性分析数学上不可能是巧合">权重共线性分析：数学上不可能是巧合</h2>
<p>身份探针证明了行为层面的异常，但还不够硬核——也许只是训练数据混入了 Nex 的语料？Nex-AGI 的第二层证据直接打到了权重层面。</p>
<p>如果 Rio 确实是 Nex 和 Qwen 的线性混合，那么数学上有一个严格的约束：对每一个权重张量 t，</p>
<blockquote>
<p><strong>(Rio_t − Qwen_t) = α × (Nex_t − Qwen_t)</strong></p></blockquote>
<p>换句话说，&ldquo;Rio 偏离 Qwen 的方向&quot;和&quot;Nex 偏离 Qwen 的方向&quot;必须完全一致。在拥有数十亿参数的高维空间中，两个独立训练的模型偏离基座的方向几乎必然正交——共线性接近 0。而如果是同一个模型的混合，共线性应该接近 1。</p>
<p>Nex-AGI 对 Rio 的每一个权重张量做了逐层分析，结果如下：</p>
<table>
  <thead>
      <tr>
          <th>组件</th>
          <th>混合比例 α</th>
          <th>共线性 cos_fit</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>路由专家层（387B 参数，全部 60 层）</td>
          <td>0.571 ± 0.0016</td>
          <td><strong>0.993</strong></td>
      </tr>
      <tr>
          <td>lm_head 输出层</td>
          <td>0.574</td>
          <td><strong>0.991</strong></td>
      </tr>
      <tr>
          <td>注意力层（q/k/v/o，15 个全注意力层）</td>
          <td>~0.585</td>
          <td><strong>~0.986</strong></td>
      </tr>
      <tr>
          <td>线性注意力投影层（45 层）</td>
          <td>~0.586</td>
          <td><strong>~0.984</strong></td>
      </tr>
  </tbody>
</table>
<p><strong>0.99 的共线性意味着什么？</strong> 对于一个拥有数千万到数十亿参数的张量，两个独立模型的方向一致性大约是 ±0.0001。测出 0.99 相当于偏离随机期望<strong>数千到数万个标准差</strong>——而且是<strong>每一层、每一个张量、同时出现</strong>。</p>
<p>混合比例 α 的稳定性也令人印象深刻：387B 参数的专家块在 60 层中的标准差仅为 0.0016。这不是微调会产生的效果——微调会在不同层产生复杂的非线性变化，而这里看到的是一个固定比例的刚性混合。</p>
<h2 id="mergekit-和模型合并为什么这比训练便宜得多">mergekit 和模型合并：为什么这比训练便宜得多</h2>
<p>要理解为什么有人会这么做，得先了解模型合并（Model Merging）的生态。</p>
<p><a href="https://github.com/arcee-ai/mergekit">mergekit</a> 是目前最流行的开源模型合并工具，支持多种合并算法：</p>
<ul>
<li><strong>SLERP</strong>（球面线性插值）：在两个模型的权重空间之间平滑插值，保持向量几何性质，适合两个模型的合并</li>
<li><strong>TIES</strong>（任务特定参数解耦）：先修剪冗余参数，再解决符号冲突，最后对齐合并，支持多模型同时合并</li>
<li><strong>DARE</strong>（随机丢弃并重缩放）：随机将微调权重重置为基座值，再缩放以保持输出期望</li>
</ul>
<p>这些方法的核心卖点是<strong>不需要 GPU 训练</strong>。你只需要有目标模型的权重文件，本地一台机器就能在几分钟内&quot;创造&quot;一个新模型。在 Hugging Face 的排行榜上，用 mergekit 合并的模型多次登顶——比如 Marcoro14-7B-slerp 曾经排名第一。</p>
<p>这本身不是坏事。mergekit 的设计初衷是让社区更灵活地组合不同模型的特长，TIES 和 DARE 论文也都是正经学术工作。但工具是中性的，使用方式不是。当你用 mergekit 把别人训练的模型和一个基座模型合并，改个名字，说是自己&quot;从头训练&quot;的——这就跨过了学术诚信的红线。</p>
<p>IplanRIO 后来在 Hugging Face 上更新了模型说明，改口称&quot;该模型基于 Nex-N2-Pro 和 Qwen3.5-397B-A17B 的合并，然后进行了 On-Policy Distillation&rdquo;，并声称&quot;之前上传的是基础合并版本，最终蒸馏版本上传有误&rdquo;。</p>
<p>但 Nex-AGI 的权重分析已经表明，<strong>没有任何蒸馏或训练的证据</strong>——所有权重都完美符合刚性线性混合，没有出现蒸馏或微调会带来的非线性偏差。</p>
<h2 id="这件事为什么比你想象的重要">这件事为什么比你想象的重要</h2>
<p>坦白说，如果这只是一家创业公司的营销把戏，可能不值得专门写一篇文章。但 Rio-3.5-Open-397B 的背景不一样：</p>
<p><strong>1. 政府项目的公信力问题</strong></p>
<p>这是里约热内卢市政府发布的产品，IplanRIO 是市政 IT 公司。里约市长 Eduardo Paes 在社交媒体上高调宣传了这个模型。如果公共资源被用于包装一个合并模型并宣传为&quot;自主研发&rdquo;，这就是一个公共问责问题。巴西社交媒体上已经出现了大量质疑声。</p>
<p><strong>2. 基准测试的可信度</strong></p>
<p>Rio 发布时附带了一系列基准分数，声称在 SWE-Bench Multilingual（77.0）、Terminal-Bench 2.1（70.8）、IMOAnswerBench（89.5）等测试中超过了 Qwen 3.7 Plus。但这些分数来自&quot;SwiReasoning&quot;推理技术——一种基于<a href="https://arxiv.org/abs/2510.05069">arxiv:2510.05069</a>论文的推理时切换方法。问题是：<strong>SwiReasoning 的实现代码没有开源，基准测试代码也没有公开。</strong> 这意味着这些分数无法被独立验证。</p>
<p>如果你读过我之前分析 <a href="https://blog.hypho.cn/posts/ai-benchmark-exploits-berkeley-rdi/">Berkeley RDI 团队如何系统性破解八大 AI 基准测试</a> 的文章，你会发现模式是相似的：基准分数的可信度取决于测试过程的透明度。没有可复现的代码，分数就是一面之词。</p>
<p><strong>3. 开源模型是天然的监督者</strong></p>
<p>这个案例最有趣的地方在于：揭露者不是监管机构，不是记者，而是<strong>另一家 AI 实验室</strong>——它在公开权重中认出了自己模型的&quot;指纹&quot;。</p>
<p>这恰好说明了开源模型的问责价值。当权重公开时，任何人都可以做 Nex-AGI 做的事情：逐层比对权重张量，检测模型的真实来源。当权重封闭时（比如大多数商业 API），你根本无从知道你调用的模型到底是什么。</p>
<p><a href="https://blog.hypho.cn/posts/llm-disagreement-fact-checks-lenz/">Lenz 的研究</a> 也揭示过类似的问题：当前沿 LLM 在 67% 的事实核查上互相矛盾时，我们缺乏有效的机制来判断谁是对的。而 Rio 事件进一步说明——不仅输出层面的验证困难，连&quot;这个模型到底是谁做的&quot;这种基本问题都可能造假。</p>
<h2 id="模型溯源的技术挑战">模型溯源的技术挑战</h2>
<p>Rio 事件暴露了一个更大的行业问题：<strong>我们缺乏标准化的模型溯源机制。</strong></p>
<p>目前，验证一个模型的真实来源主要有几种方式：</p>
<ol>
<li>
<p><strong>权重比对</strong>：像 Nex-AGI 这样，逐层比较目标模型和候选模型的权重张量。但这需要你手上有候选模型的权重，而且只适用于线性混合这种简单的合并方式。像 TIES 或 DARE 这种带随机剪枝的合并，权重指纹会更难识别。</p>
</li>
<li>
<p><strong>行为探针</strong>：通过精心设计的 prompt 探测模型的身份、训练数据、能力边界。这是黑盒方法，不需要权重访问，但可靠性取决于探针设计的质量。</p>
</li>
<li>
<p><strong>水印注入</strong>：在训练时向模型注入特定的行为模式（比如对特定输入的固定输出），作为后续验证的&quot;签名&quot;。这在学术上有不少研究，但实际部署的案例很少。</p>
</li>
<li>
<p><strong>基准复现</strong>：独立第三方用相同的代码和数据重新运行基准测试，验证分数是否一致。这是最&quot;正统&quot;的方法，但成本最高。</p>
</li>
</ol>
<p>现实是，以上每种方法都有局限。权重比对只能检测已知模型的混合；行为探针容易被系统提示词掩盖；水印可能在后续训练中被冲掉；基准复现的成本让大多数独立研究者望而却步。</p>
<h2 id="工程建议">工程建议</h2>
<p>如果你在企业里做 AI 模型选型或采购，Rio 事件给你的教训很直接：</p>
<p><strong>1. 对&quot;自研&quot;声明保持警惕。</strong> 特别是当一个此前没有大模型训练记录的机构突然发布了一个前沿级模型时，问清楚：基座模型是什么？训练数据从哪来？训练用了多少 GPU、多长时间？</p>
<p><strong>2. 要求可复现的基准测试。</strong> 不要接受没有开源代码的基准分数。如果供应商说&quot;我们在 X 测试上得了 Y 分&quot;，你有权要求看测试代码和配置。</p>
<p><strong>3. 做自己的行为探针测试。</strong> 在部署前，用不同方式问模型&quot;你是谁&quot;——去掉系统提示词、切换语言、问一些训练数据中可能出现的组织特异性信息。如果模型的回答和官方说法矛盾，值得深入调查。</p>
<p><strong>4. 优先选择有完整开源记录的模型。</strong> 权重公开、训练代码公开、数据来源有说明的模型，出问题的概率低得多——不是因为造假不可能，而是因为造假被发现的概率高得多。</p>
<h2 id="尾声">尾声</h2>
<p>截至发稿时，IplanRIO 尚未对 Nex-AGI 的分析做出正式技术回应。Hugging Face 上的模型说明已被修改，但上传的权重文件未更换。巴西社交媒体上的讨论仍在发酵。</p>
<p>这个事件会如何收场还不好说，但它已经留下了一个清晰的技术注脚：<strong>在开源权重的世界里，模型合并不是&quot;无痕&quot;操作。</strong> 每一次混合都会在权重中留下数学指纹，而开源社区有能力也有意愿去读取这些指纹。</p>
<p>对于整个行业来说，这可能比任何一个单独的造假事件都更重要——它建立了一个先例：你可以合并模型，但你不能假装没合并过。</p>
<hr>
<p><em>信源：</em></p>
<ul>
<li><em><a href="https://github.com/nex-agi/Nex-N2/issues/4">Nex-AGI GitHub Issue #4</a> — 原始权重分析报告</em></li>
<li><em><a href="https://huggingface.co/prefeitura-rio/Rio-3.5-Open-397B">HuggingFace: prefeitura-rio/Rio-3.5-Open-397B</a> — 模型页面</em></li>
<li><em><a href="https://www.squaredtech.co/rios-official-ai-model-is-proven-to-be-a-model-merge">SquaredTech 报道</a> — 事件报道</em></li>
<li><em><a href="https://github.com/arcee-ai/mergekit">mergekit GitHub</a> — 模型合并工具</em></li>
<li><em><a href="https://arxiv.org/abs/2510.05069">SwiReasoning 论文 (arxiv:2510.05069)</a> — 推理切换技术</em></li>
<li><em><a href="https://news.ycombinator.com/item?id=48528371">Hacker News 讨论</a> — 社区讨论</em></li>
</ul>
]]></content:encoded></item></channel></rss>