Fact-Checking

如果你正在用 LLM 做事实核查、内容审核或者知识问答系统，有一个问题你大概率回避不了：当多个模型对同一条声明给出判断时，它们的答案到底能不能互相印证？答案可能比你想象的更令人不安。 Lenz Research 在 2026 年 5 月发布了一份名为《Beyond Benchmarks: Frontier LLM Disagreement on Real-World Fact-Checks》的快照研究（Snapshot v1.0），用 1,000 条真实用户提交的事实声明，让五款顶级前沿 LLM 各自独立判断真假。结论很直白：67% 的声明，至少有一个模型的判断与多数派相左——要么没有形成多数共识，要么有模型直接唱反调。这可不是 benchmark 刷分游戏。这些声明来自真实用户提交给 Lenz 事实核查平台的请求，涵盖健康、科学、政治、金融、法律、技术等领域。没有公开的答案库，没有排行榜可以 pattern-match。研究设计：五个模型，一千条声明，强制四选一测试对象是当前公认的五款顶级模型：GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search（带 Google 搜索增强）、Sonar Pro（Perplexity 的搜索增强模型）。每条声明被提炼成一个中立的、可检验的命题（Lenz 称之为"framing step"——剥离情绪化表达和偏见，只保留核心事实主张），然后要求每个模型从四个选项中强制选择一个：True、Mostly True、Misleading、False。注意两个关键设计决策：强制选择，不允许弃权。没有"我不确定"这个选项。这保证了对称比较——如果允许 Abstain，搜索增强模型可能通过大量弃权来"提高准确率"，但那就不是同一场比赛了。不做 ground truth 对比。研究的视角不是"哪个模型更准确"，而是"模型之间有多不一致"。多数派意见不等于正确答案，少数派也不等于错误——但分歧本身就是一个值得重视的信号。核心发现：三分之二的声明，模型们吵起来了数据很清晰： 67% 的声明（672/1,000，95% CI: 64–70%）存在至少一个模型与多数派分歧 34% 的声明（343/1,000）涉及 2 个以上桶位的实质性分歧——不是 True 和 Mostly True 之间的细微差异，而是 True 和 False 之间的根本对立 21% 的声明（211/1,000）出现极端对峙：一个模型说是 True，另一个说是 False 只有 33% 的声明达成五方一致用 Krippendorff’s α（序数版）衡量五个评分者的一致性，得到 0.639——说白了就是"有结构，但远不够可靠"。如果你让五个实习生做同一批事实核查，交上来的结果差异这么大，你大概不会直接发布。 ...