← 返回日报
🌐 机器翻译 · DeepSeek · HF Blog

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM


ITBench-AA:前沿模型在企业级IT任务的首个基准测试中得分低于50% —— 由 Artificial Analysis 和 IBM 联合发布


回到文章

ITBench-AA:前沿模型在企业级IT任务的首个基准测试中得分低于50% —— 由 Artificial Analysis 和 IBM 联合发布

企业文章 发布于 2026年5月27日 点赞 11 +5

Ayhan Sebin @ayhansebin 关注 ibm-research

Saurabh Jha @saurabhjha1 关注 ibm-research

Rohan Arora @rohan-arora 关注 ibm-research

关键发现:

ITBench-AA 是与 @IBM 基于其 ITBench 基准测试合作构建的。

更多信息请参见:

2026年5月18日

2026年4月15日

社区

📖 阅读原文 →