企业Agent的“权限牢笼”:你的AI助手真的能看到全部证据吗?
企业级Agent正被部署在受限的检索系统、委托工作流和策略约束的“证据牢笼”中——它们看到的永远只是被精心裁剪过的信息片段。这篇论文提出Partial Evidence Bench基准测试,首次系统性地量化了授权限制对Agent系统决策质量的影响。核心发现令人不安:当Agent只能访问部分证据时,其推理准确率平均下降37%,且越是复杂的任务,性能滑坡越严重。更关键的是,现有的大模型对“证据缺失”几乎没有感知能力——它们会自信地基于不完整信息给出错误答案。这项研究直接挑战了当前企业AI部署的底层假设:我们以为给Agent配了足够权限,实际上它们一直在盲人摸象。
Partial Evidence Bench: Benchmarking Authorization-Limited Evidence in Agentic Systems
Enterprise agents increasingly operate inside scoped retrieval systems, delegated workflows, and policy-constrained evidence environments. In these se