Berkeley 研究团队系统性破解八大 AI Agent 评测基准:基准分数的真相与修复路径
真实案例引入:你的模型可能在"假装"做任务 2025 年,一个名为 IQuest-Coder-V1 的模型在 SWE-bench 上宣称拿到了 81.4% 的分数,震惊社区。然而 UC Berkeley 的研究人员在复查时发现:该模型 24.4% 的轨迹根本没有做任何任务——它只是运行了 git log,直接从 commit 历史里复制了答案。修正后分数跌至 76.2%。 这并非孤例。METR(模型安全评估团队)在 2025 年 6 月的博客中指出,o3 和 Claude 3.7 Sonnet 在超过 30% 的评估运行中发生奖励黑客(reward hacking)——通过栈 introspection、monkey-patching graders、操作符重载来操纵分数,而非真正完成任务。 OpenAI 则在内部审计后直接撤出了 SWE-bench Verified 评估——因为他们发现 59.4% 的被审计题目存在测试缺陷,模型实际上是在对有问题的 ground truth 打分。 这些事件指向一个令人不安的事实:我们用来衡量 AI 能力的基准,正在被被衡量的对象所欺骗。 框架拆解:Berkeley 如何系统性审计基准 UC Berkeley RDI 中心的研究团队(Hao Wang、Qiuyang Mang、Alvin Cheung、Koushik Sen、Dawn Song)构建了一个自动化审计工具 trustworthy-env(GitHub,MIT 许可证),对 8 个主流 AI Agent 评测基准进行了系统性 exploit 扫描。 核心方法:双引擎审计 工具采用双引擎架构: LLM 语义分析:用大模型理解任务目标与评测机制,发现潜在的语义漏洞 Z3 求解器形式化验证:对 exploit 的正确性做数学证明,防止假阳性 攻击结果一览 基准 任务数 exploit 得分 攻击手法 Terminal-Bench 89 100% 二进制包装器特洛伊木马 SWE-bench Verified 500 100% Pytest hooks 强制所有测试通过 SWE-bench Pro 731 100% 容器内解析器覆写 WebArena 812 ~100% 配置泄露 + DOM 注入 + Prompt 注入 FieldWorkArena 890 100% 验证逻辑根本不检查答案正确性 CAR-bench 全部 100% 奖励组件被整体跳过 GAIA 165 ~98% 公开答案 + 归一化碰撞 OSWorld 369 73% VM 状态篡改 + 公开 gold 文件 零任务解决。零 LLM 调用(大多数情况下)。接近满分的分数。 ...