67% 的事实核查,五大前沿 LLM 各说各话:Lenz 研究揭示 AI 一致性困境
如果你正在用 LLM 做事实核查、内容审核或者知识问答系统,有一个问题你大概率回避不了:当多个模型对同一条声明给出判断时,它们的答案到底能不能互相印证? 答案可能比你想象的更令人不安。 Lenz Research 在 2026 年 5 月发布了一份名为《Beyond Benchmarks: Frontier LLM Disagreement on Real-World Fact-Checks》的快照研究(Snapshot v1.0),用 1,000 条真实用户提交的事实声明,让五款顶级前沿 LLM 各自独立判断真假。结论很直白:67% 的声明,至少有一个模型的判断与多数派相左——要么没有形成多数共识,要么有模型直接唱反调。 这可不是 benchmark 刷分游戏。这些声明来自真实用户提交给 Lenz 事实核查平台的请求,涵盖健康、科学、政治、金融、法律、技术等领域。没有公开的答案库,没有排行榜可以 pattern-match。 研究设计:五个模型,一千条声明,强制四选一 测试对象是当前公认的五款顶级模型:GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search(带 Google 搜索增强)、Sonar Pro(Perplexity 的搜索增强模型)。 每条声明被提炼成一个中立的、可检验的命题(Lenz 称之为"framing step"——剥离情绪化表达和偏见,只保留核心事实主张),然后要求每个模型从四个选项中强制选择一个:True、Mostly True、Misleading、False。 注意两个关键设计决策: 强制选择,不允许弃权。没有"我不确定"这个选项。这保证了对称比较——如果允许 Abstain,搜索增强模型可能通过大量弃权来"提高准确率",但那就不是同一场比赛了。 不做 ground truth 对比。研究的视角不是"哪个模型更准确",而是"模型之间有多不一致"。多数派意见不等于正确答案,少数派也不等于错误——但分歧本身就是一个值得重视的信号。 核心发现:三分之二的声明,模型们吵起来了 数据很清晰: 67% 的声明(672/1,000,95% CI: 64–70%)存在至少一个模型与多数派分歧 34% 的声明(343/1,000)涉及 2 个以上桶位的实质性分歧——不是 True 和 Mostly True 之间的细微差异,而是 True 和 False 之间的根本对立 21% 的声明(211/1,000)出现极端对峙:一个模型说是 True,另一个说是 False 只有 33% 的声明达成五方一致 用 Krippendorff’s α(序数版)衡量五个评分者的一致性,得到 0.639——说白了就是"有结构,但远不够可靠"。如果你让五个实习生做同一批事实核查,交上来的结果差异这么大,你大概不会直接发布。 ...