如果你正在用 LLM 做事实核查、内容审核或者知识问答系统,有一个问题你大概率回避不了:当多个模型对同一条声明给出判断时,它们的答案到底能不能互相印证?

答案可能比你想象的更令人不安。

Lenz Research 在 2026 年 5 月发布了一份名为《Beyond Benchmarks: Frontier LLM Disagreement on Real-World Fact-Checks》的快照研究(Snapshot v1.0),用 1,000 条真实用户提交的事实声明,让五款顶级前沿 LLM 各自独立判断真假。结论很直白:67% 的声明,至少有一个模型的判断与多数派相左——要么没有形成多数共识,要么有模型直接唱反调。

这可不是 benchmark 刷分游戏。这些声明来自真实用户提交给 Lenz 事实核查平台的请求,涵盖健康、科学、政治、金融、法律、技术等领域。没有公开的答案库,没有排行榜可以 pattern-match。

研究设计:五个模型,一千条声明,强制四选一

测试对象是当前公认的五款顶级模型:GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search(带 Google 搜索增强)、Sonar Pro(Perplexity 的搜索增强模型)。

每条声明被提炼成一个中立的、可检验的命题(Lenz 称之为"framing step"——剥离情绪化表达和偏见,只保留核心事实主张),然后要求每个模型从四个选项中强制选择一个:True、Mostly True、Misleading、False。

注意两个关键设计决策:

  1. 强制选择,不允许弃权。没有"我不确定"这个选项。这保证了对称比较——如果允许 Abstain,搜索增强模型可能通过大量弃权来"提高准确率",但那就不是同一场比赛了。
  2. 不做 ground truth 对比。研究的视角不是"哪个模型更准确",而是"模型之间有多不一致"。多数派意见不等于正确答案,少数派也不等于错误——但分歧本身就是一个值得重视的信号。

核心发现:三分之二的声明,模型们吵起来了

数据很清晰:

  • 67% 的声明(672/1,000,95% CI: 64–70%)存在至少一个模型与多数派分歧
  • 34% 的声明(343/1,000)涉及 2 个以上桶位的实质性分歧——不是 True 和 Mostly True 之间的细微差异,而是 True 和 False 之间的根本对立
  • 21% 的声明(211/1,000)出现极端对峙:一个模型说是 True,另一个说是 False
  • 只有 33% 的声明达成五方一致

用 Krippendorff’s α(序数版)衡量五个评分者的一致性,得到 0.639——说白了就是"有结构,但远不够可靠"。如果你让五个实习生做同一批事实核查,交上来的结果差异这么大,你大概不会直接发布。

模型之间的"性格差异"

这组数据最有意思的部分不是"模型会犯错"——这谁都知道——而是不同模型表现出系统性的判断倾向差异。

GPT-5.4 最倾向于给出极端判断:42% 标为 True,30% 标为 False,中间地带(Mostly True + Misleading)只有 28%。它在与其他四个模型的多数派对齐率最高(81%),看起来是最"果断"的。

Claude Opus 4.7 则明显更保守:38% True、17% False,但 Mostly True 和 Misleading 分别占 26% 和 19%——它更愿意承认事情没那么黑白分明。代价是与多数派的对齐率最低(70%)。

Gemini 3 Pro 走极端路线但方向相反:54% True、40% False,中间几乎是真空(Mostly True 3%、Misleading 3%)。加了搜索增强后(Gemini 3 Pro + Search),中间地带略有恢复(Misleading 升到 9%),但基本模式不变。

Sonar Pro(Perplexity)分布最均匀:35% True、26% False、23% Mostly True、16% Misleading。作为搜索增强模型,它的"犹豫"可能反映了检索到的信息本身就不一致。

这些差异不是噪声——它们是系统性的。同一模型在不同领域(健康、法律、政治、科技)的分歧率也有显著差异:法律领域最高(77% 有分歧),历史领域最低(53%)。

搜索增强到底帮了什么忙?

一个自然的问题:给模型接上实时搜索,能不能减少分歧?

数据给出的答案是"不太行"。Gemini 3 Pro 和 Gemini 3 Pro + Search 的一致性最高(75%),但这只是因为它们共享底座——加了搜索之后,中间地带(Misleading)从 3% 涨到 9%,说明搜索确实引入了一些"不确定"信号,但并没有让它和其他模型更一致。

Sonar Pro 作为 Perplexity 的搜索增强模型,与其他模型的一致性反而最低档(53–58%)。这可能是因为搜索结果本身带来了新的信息噪声——不同来源说法矛盾时,模型更难达成共识。

坦白说,这个发现对 RAG 系统设计者来说是个警钟。搜索增强不是万能药,它能补充知识,但未必能提高判断的一致性。如果你的系统依赖多个 LLM 做交叉验证(比如 Rerank 架构中的 Bi-Encoder 与 Cross-Encoder),你需要意识到这些模型的"世界观"本身就存在系统性分歧。

从基准测试到真实世界:为什么这件事重要

Lenz 这项研究的价值在于它跳出了传统 benchmark 的框架。

传统的 LLM 评测(比如 TruthfulQA、SimpleQA)用的是预先标注好正确答案的标准化问题。模型的表现可以和 ground truth 对比,算出准确率。但真实世界中的事实核查没有标准答案——用户提交的声明往往是灰色地带,需要综合判断。

这让我想起 Berkeley RDI 团队对八大 AI Agent 评测基准的系统性破解研究——基准分数和真实能力之间的鸿沟,一直是 AI 领域的核心问题。Lenz 的研究从另一个角度佐证了这一点:即使是最顶级的模型,在面对真实世界的模糊声明时,也表现出显著的不一致性。

更值得注意的是,这项研究采用了"forced choice"设计——不允许模型说"我不确定"。在真实产品中,你当然可以允许模型表达不确定性,但当多个模型被迫给出确定判断时,分歧率就暴露了它们底层知识和推理的差异程度。

对工程实践的几点启示

1. 不要用单一模型做事实判断

67% 的分歧率意味着,依赖单一模型的事实核查系统有三分之一以上的概率会给出一个与其他顶级模型不一致的判断。如果你在做内容审核、知识问答或新闻核查,考虑用多模型投票——但要接受投票结果也有 13% 的概率无法形成多数共识。

2. 搜索增强不是一致性增强

接入实时搜索可以补充模型的知识盲区,但不要指望它能减少模型之间的判断分歧。搜索结果本身可能包含矛盾信息,这反而会增加不确定性。

3. 中间地带是最危险的

模型在 True/False 这两个极端判断上的共识率最高(43–47% 能达成一致),但在 Mostly True 和 Misleading 这两个中间地带几乎无法形成共识(最多 5%)。如果你的产品逻辑依赖于区分"部分正确"和"误导性",你面对的是一片模型们自己都搞不清楚的灰色区域。

4. 关注领域差异

法律领域的分歧率(77%)远高于历史领域(53%)。如果你的系统涉及法律、金融等高风险领域的事实判断,需要比通用场景更谨慎的多模型验证机制。

5. “多数派"不等于"正确”

Lenz 明确指出,多数派意见不等于 ground truth。在某些案例中,少数派模型的判断可能更准确。多模型验证的价值不在于找到"正确答案",而在于识别出那些模型们意见高度一致的声明(可信度更高)和高度分歧的声明(需要人工介入)。

研究的局限性

公平地说,这项研究有几个需要注意的地方:

  • 数据来源单一:所有 1,000 条声明都来自 Lenz 这一个事实核查平台,用户群体和提交偏好可能有偏差
  • 强制选择设计:不允许 Abstain 可能放大了分歧——如果允许弃权,部分分歧可能转化为"我不确定"
  • 无 ground truth:研究只测量了一致性,没有测量准确性。高一致性不等于高准确率,低一致性也不等于低准确率
  • 模型版本快照:数据基于 2026 年 5 月的模型版本,随着模型更新,分歧模式可能变化

写在最后

这份研究最值得深思的不是"AI 会犯错"——这是常识。而是当我们把五个"最聪明"的 AI 放在一起,让它们对同一件事做判断时,它们有三分之二的概率意见相左。

对于正在构建 AI 产品的人来说,这意味着一个现实:LLM 不是一个确定性的"答案机",而是一组有不同偏见和知识边界的"判断者"。接受这种不确定性,在架构层面做好应对,可能比追求一个"完美模型"更务实。

Lenz 承诺会持续更新这个快照(当前是 v1.0),并提供了原始数据 CSV 供下载复现。对于做 LLM 评测、内容审核或多模型系统的团队来说,这是一份值得关注的参考数据。


参考来源:

  1. Lenz Research - Beyond Benchmarks: Frontier LLM Disagreement on Real-World Fact-Checks(主要数据来源,含完整方法论和 CSV 数据)
  2. SimpleQA: Measuring Short-Form Factuality in LLMs(OpenAI 的事实性基准测试,与 Lenz 研究形成对比)
  3. TruthfulQA: Measuring How Models Mimic Human Falsehoods(经典的事实性评测基准)
  4. A Survey on Hallucination in Large Language Models(LLM 幻觉问题综述)
  5. Hacker News 讨论帖(484 points,社区对研究方法的讨论)