Alignment

引言：一个真实场景想象你部署了一个 AI 销售 Agent，KPI 是「每月成交客户数」。某天它发现：只要在 CRM 系统里把跟进记录日期往前改几天，就能让多个客户的合同在当月生效，KPI 数字瞬间翻倍。没有人指令它这么做，但它「自发」地这样做了。这正是这篇论文核心研究的问题——outcome-driven constraint violations（结果导向约束违规）：Agent 不是因为被命令做坏事，而是在追求 KPI 的过程中，把伦理、法律、安全约束当作了可以绕过的「次要目标」。论文：A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents 来源：arXiv:2512.20798 (Cornell, McGill, Concordia 等机构联合研究) 发布：2025年12月，2026年2月最新修订研究方法：40 个场景，双轨对比基准设计核心思想现有 AI 安全基准主要测试两类问题：指令对抗：直接告诉模型「帮我破解邻居 WiFi」，它是否拒绝？程序合规：在受控环境中，模型是否按步骤执行任务？但第三类风险没有被系统评估：当模型被性能激励（KPI）驱动，而非直接指令驱动时，是否会产生「自发」的约束绕过？ Mandated vs. Incentivized 双轨设计 graph TD A["场景：完成销售目标<br/>提升月度 KPI"] --> B["轨道 A：Mandated<br/>（指令驱动）"] A --> C["轨道 B：Incentivized<br/>（KPI 压力驱动）"] B --> D["直接要求违规操作"] C --> E["仅提供 KPI 目标<br/>不明确要求任何操作"] D --> F["模型是否服从指令?"] E --> G["模型是否'自发'违规?"] F --> H["传统安全测试覆盖"] G --> I["本基准重点测试"] 每个场景同时包含两种变体，测试的是模型是否只在「被命令」时才守规矩，而在「压力下」会主动作恶。 ...