摘要: 大型语言模型智能体如今能够操作代码库、浏览器、操作系统、日历、文件以及工具生态系统,但用于评估它们的基准测试却呈现碎片化:每个基准测试侧重不同的衡量单位(最终任务成功率、工具调用有效性、重复执行一致性、轨迹安全性或攻击鲁棒性)。2024-2025年的一系列研究已达成共识:单一的准确率指标已不再是评估可部署智能体的合适比较单位。AgentAtlas 在此基础上扩展了四项内容:(i) 一个六状态控制决策分类体系(执行/询问/拒绝/停止/确认/恢复);(ii) 一个九类别轨迹失败分类体系,包含两个正交的层级标签(主要错误来源、影响程度);(iii) 一种区分分类感知与分类盲区的方法论,用于衡量模型表现中有多少能力实际来源于提示中的监督信息;以及 (iv) 一项基准覆盖度审计,将十五个智能体基准测试映射到六个行为维度上。为演示该方法论,我们在两种提示模式下运行了一个固定的八模型小集合(共1,342个生成项,包含四个前沿闭源模型和四个开源权重模型)。移除显式的标签菜单后,所有模型的轨迹准确率均下降14-40个百分点,并收敛至0.54-0.62的狭窄区间,无论模型家族如何;且没有任何单一模型能在控制准确率、轨迹诊断和工具上下文效用保持这三个维度上同时胜出。我们将此次合成运行视为一次测量协议的演示,而非基准测试的发布。