← 返回日报
🌐 机器翻译 · DeepSeek · ArXiv

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows


摘要:我们提出 DecisionBench,一个用于长周期智能体工作流中涌现式委托的基准测试框架。该框架固定了任务套件(GAIA、tau-bench、BFCL 多轮交互)、同行模型池(11 个模型,7 个供应商系列)、委托接口(call_model 加上可选的 read_profile 通道)、确定性技能标注层,以及一套涵盖质量、成本、延迟、委托率、top-k 路由保真度、供应商自偏好和反事实委托上限的多维度指标套件。该框架对同行信息的生成或传递方式保持无关性,因此可基于它评估学习型路由器、更丰富的同行记忆、自适应画像构建以及多步委托等方案。我们通过在全模型池(n=23,375 个任务实例)上执行五条件参考扫描来刻画该框架。三个基准层面的发现随之浮现:(i) 在四种感知条件下,最终任务的平均质量在统计上无显著差异(|beta| <= 0.010,p >= 0.21),因此仅基于质量的评估会遗漏编排信号;(ii) 在平均质量近乎相等的情况下,各条件下的 top-1 路由保真度范围从 7.5% 到 29.5%,其中传递通道(按需工具 vs. 预加载描述)对结果的影响远大于描述内容本身;(iii) 反事实上限表明,在每个任务套件上,完美委托比实测性能高出 15 到 31 个百分点,为未来的编排方法留下了巨大的未实现空间。我们公开了该框架、标注层、参考干预套件、分析流程以及 220 个按条件运行的存档。

📖 阅读原文 →