ITBench-AA:前沿模型在企业级IT任务的首个基准测试中得分低于50% —— 由 Artificial Analysis 和 IBM 联合发布
回到文章
ITBench-AA:前沿模型在企业级IT任务的首个基准测试中得分低于50% —— 由 Artificial Analysis 和 IBM 联合发布
企业文章 发布于 2026年5月27日 点赞 11 +5
Ayhan Sebin @ayhansebin 关注 ibm-research
Saurabh Jha @saurabhjha1 关注 ibm-research
Rohan Arora @rohan-arora 关注 ibm-research
关键发现:
- ITBench-AA SRE 概览:
- ITBench-AA 是与 @IBM 基于其 ITBench 基准测试合作构建的。Artificial Analysis 和 IBM 软件创新实验室联合发布了 ITBench-AA,这是一个全新系列基准测试中的首个,用于评估模型在企业级IT任务上的表现,从站点可靠性工程任务开始,前沿模型在此类任务中得分低于50%。
- ITBench-AA 的 SRE 任务对模型在 Kubernetes 事件响应上的表现进行基准测试,模型和智能体必须通过读取日志、追踪依赖关系以及识别复杂基础设施中的根因实体来诊断实时系统。
- 底层的 ITBench 数据集由 IBM 开发,充分利用了其在企业IT运营方面的深厚专业知识。Artificial Analysis 在过去6个月中与 IBM 紧密合作,为前沿AI评估开发了该数据集的一个实现,从站点可靠性工程开始,并逐步扩展到财务运营和首席信息安全官任务。
- Claude Opus 4.7(自适应推理,最大努力)以47%的得分领先,其次是 GPT-5.5(xhigh) 的46%和 Qwen3.7 Max 的42%。所有前沿模型得分均低于50%,这使得 ITBench-AA SRE 成为我们套件中饱和度最低的智能体基准测试之一。作为背景,前沿模型在 Terminal-Bench 上的得分要高得多。
- 轮次数量差异接近3倍,但更长的轨迹并未转化为更高的准确率。 GPT-5.5(xhigh)平均每项任务31轮,得分为46%,而 Gemini 3.1 Pro Preview 平均每项任务83轮,得分为30%。过度调查的模型倾向于将上游故障注入机制或并发症状作为误报提出。
- GLM-5.1(推理)以40%的得分领先开放权重模型,与 Gemini 3.5 Flash(高)基本持平。DeepSeek V4 Pro(推理,最大努力)以38%紧随其后,Gemma 4 31B(推理)为37%,领先于 Gemini 3.1 Pro Preview 的30%。
- 总共59个SRE任务:40个公开任务和19个全新的、保留任务。
- 每个任务提供一个 Kubernetes 事件快照,包含告警、事件、追踪、指标、日志和应用拓扑。模型必须识别出导致事件的最小独立根因 Kubernetes 实体集合。
- 故障涵盖典型的 SRE 故障模式,包括基础设施、服务、应用和混沌注入事件,例如资源配额耗尽、发布失败、连接池耗尽和网络分区。
- 智能体框架: 每个任务由运行在我们开源 Stirrup 参考框架中的模型解决,该框架提供对包含相关日志和快照的沙盒文件系统的 shell 访问权限。每项任务上限为100轮,每项任务重复3次。
- 模型和智能体提交一份他们认为导致事件的根因实体列表(Kubernetes 部署、服务、Pod 等)。每次提交都会与 IBM 提供的真实根因集合进行比较。
- 评分使用全召回率下的平均精确率: 如果模型遗漏了任何真实根因,则该次重复得分为0.0。如果模型识别出所有真实根因,则其得分等于其精确率——即提交的实体中实际为根因的比例,即真正例 /(真正例 + 假正例)。标题得分为59项任务 × 3次重复的平均值。
- 该框架(Stirrup)在所有评估模型中保持不变,从而允许模型之间进行公平比较。
- 任务要求智能体通过 shell 命令调查 Kubernetes 事件快照,并提交结构化的 JSON 诊断结果,识别出负责的根因实体。
- 在一个公开的 SRE 任务中,智能体在前端路径中看到面向用户的故障。它使用 shell 命令检查离线快照:查看告警显示事件窗口,然后追踪/日志将故障缩小到前端流量。拓扑结构确定了受影响的服务器,而 Kubernetes 清单揭示了一个阻止前端的网络策略。成功的诊断识别出负责的根因实体:
otel-demo/NetworkPolicy/frontend-block-all-ports。 - 更多的轮次并不意味着更好的答案。 提交超出真实根因的额外贡献实体的模型会受到惩罚:在召回率门控精确率下,识别出正确根因但添加了上游机制(例如,chaos-mesh 控制器)或并发症状会被计为假正例。这就是为什么一些具有长轨迹的模型表现不如简洁模型的原因:Gemini 3.1 Pro Preview 平均83轮,得分30%,而 Gemma 4 31B(推理)平均58轮,得分37%。
- 开放权重模型处于 ITBench-AA SRE 的成本前沿。 Gemma 4 31B(推理)以每项任务0.14美元的成本获得37%的得分,在得分和成本上均优于 Gemini 3.1 Pro Preview(每项任务2.23美元,30%)。GLM-5.1(推理)以每项任务1.23美元的成本获得40%的得分,以更低的成本匹配了 Gemini 3.5 Flash(高)(1.70美元)的得分。Claude Opus 4.7(自适应推理,最大努力)以47%的得分领先排行榜,但也是最昂贵的,每项任务5.38美元。
亮点
关键发现:
ITBench-AA SRE 概览:
方法论细节:
亮点
ITBench-AA 是与 @IBM 基于其 ITBench 基准测试合作构建的。
更多信息请参见:
- ITBench 论文(arXiv): [https://arxiv.org/abs/2502.05352](https://arxiv.org/abs/2502.05352)
- GitHub: [https://github.com/itbench-hub/ITBench](https://github.com/itbench-hub/ITBench)
- ITBench-AA 排行榜: [https://artificialanalysis.ai/evaluations/itbench-aa](https://artificialanalysis.ai/evaluations/itbench-aa)
- ITBench-AA HuggingFace 仓库: [https://huggingface.co/datasets/ArtificialAnalysis/ITBench-AA/tree/main/sre](https://huggingface.co/datasets/ArtificialAnalysis/ITBench-AA/tree/main/sre)
- 开放智能体排行榜
来自该作者的更多内容
2026年5月18日
- VAKRA 内部:推理、工具使用与智能体的故障模式
2026年4月15日
社区
- 为什么是 Qwen 3.5 而不是 3.6?