AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

摘要： 大型语言模型智能体如今能够操作代码库、浏览器、操作系统、日历、文件以及工具生态系统，但用于评估它们的基准测试却呈现碎片化：每个基准测试侧重不同的衡量单位（最终任务成功率、工具调用有效性、重复执行一致性、轨迹安全性或攻击鲁棒性）。2024-2025年的一系列研究已达成共识：单一的准确率指标已不再是评估可部署智能体的合适比较单位。AgentAtlas 在此基础上扩展了四项内容：(i) 一个六状态控制决策分类体系（执行/询问/拒绝/停止/确认/恢复）；(ii) 一个九类别轨迹失败分类体系，包含两个正交的层级标签（主要错误来源、影响程度）；(iii) 一种区分分类感知与分类盲区的方法论，用于衡量模型表现中有多少能力实际来源于提示中的监督信息；以及 (iv) 一项基准覆盖度审计，将十五个智能体基准测试映射到六个行为维度上。为演示该方法论，我们在两种提示模式下运行了一个固定的八模型小集合（共1,342个生成项，包含四个前沿闭源模型和四个开源权重模型）。移除显式的标签菜单后，所有模型的轨迹准确率均下降14-40个百分点，并收敛至0.54-0.62的狭窄区间，无论模型家族如何；且没有任何单一模型能在控制准确率、轨迹诊断和工具上下文效用保持这三个维度上同时胜出。我们将此次合成运行视为一次测量协议的演示，而非基准测试的发布。