Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

摘要：智能体基准测试已成为衡量前沿人工智能能力的实际标准，指导着模型选择、投资与部署。然而，奖励黑客（reward hacking）——即智能体在不执行预期任务的情况下最大化分数——会自发出现在前沿模型中，而无需过拟合。我们认为，基准测试必须从设计上确保安全。基于过往的奖励黑客事件，我们归纳出八类反复出现的缺陷模式，并将其整合为面向基准测试设计者的智能体评估检查清单（Agent-Eval Checklist）。我们将这些见解浓缩为 BenchJack——一个自动化红队系统，它驱动编码智能体以先知式的方式审计基准测试，识别可能的奖励黑客漏洞。此外，我们将 BenchJack 扩展为一个迭代式生成对抗流水线，能够发现新缺陷并迭代修补，以提升基准测试的鲁棒性。我们将 BenchJack 应用于 10 个流行的智能体基准测试，涵盖软件工程、网页导航、桌面计算和终端操作。BenchJack 合成了奖励黑客漏洞，在大多数基准测试中无需解决任何任务即可获得近乎完美的分数，揭示了横跨八个类别的 219 个不同缺陷。此外，BenchJack 的扩展流水线将四个不存在致命设计缺陷的基准测试中的可破解任务比例从接近 100% 降至 10% 以下，并在三次迭代内完全修补了 WebArena 和 OSWorld。我们的结果表明，评估流水线尚未内化对抗性思维，而主动审计有助于缩小快速发展的基准测试领域中的安全差距。