POLAR-Bench: A Diagnostic Benchmark for Privacy-Utility Trade-offs in LLM Agents

摘要： 大语言模型（LLM）智能体越来越多地能够访问用户隐私数据，并在与第三方系统交互时代理用户行事。用户定义了哪些信息可以分享、哪些必须保密，而智能体必须稳健地遵循这一意图，即使第三方系统表现出对抗性行为。我们提出了 POLAR-Bench（策略感知对抗性基准），其中，一个拥有隐私策略和任务的受信模型与一个第三方模型进行对话，后者会对抗性地探查与任务相关及受保护的属性。在 10 个领域和 7,852 个样本中，我们通过确定性集合成员关系对隐私和效用进行评分，并沿两个正交维度变化隐私策略维度和攻击策略，从而为每个模型生成一个 5×5 的诊断曲面。我们的结果揭示了一个显著的分化：当前前沿模型能隐藏超过 99% 的受保护属性，而 1–30B 参数范围内的小型开源模型——这类模型是用户最常作为自有受信智能体在设备端或通过私有推理运行的——得分明显更差，其中表现最弱的模型泄露了超过一半的受保护属性。因此，POLAR-Bench 定位了每个模型在意图遵循方面的薄弱环节，为在最关键之处实现隐私对齐提供了立足点。