← 返回日报

🌐 机器翻译 · DeepSeek · ArXiv

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

摘要：我们提出 DecisionBench，一个用于长周期智能体工作流中涌现式委托的基准测试框架。该框架固定了任务套件（GAIA、tau-bench、BFCL 多轮交互）、同行模型池（11 个模型，7 个供应商系列）、委托接口（`call_model` 加上可选的 `read_profile` 通道）、确定性技能标注层，以及一套涵盖质量、成本、延迟、委托率、top-k 路由保真度、供应商自偏好和反事实委托上限的多维度指标套件。该框架对同行信息的生成或传递方式保持无关性，因此可基于它评估学习型路由器、更丰富的同行记忆、自适应画像构建以及多步委托等方案。我们通过在全模型池（n=23,375 个任务实例）上执行五条件参考扫描来刻画该框架。三个基准层面的发现随之浮现：(i) 在四种感知条件下，最终任务的平均质量在统计上无显著差异（|beta| <= 0.010，p >= 0.21），因此仅基于质量的评估会遗漏编排信号；(ii) 在平均质量近乎相等的情况下，各条件下的 top-1 路由保真度范围从 7.5% 到 29.5%，其中传递通道（按需工具 vs. 预加载描述）对结果的影响远大于描述内容本身；(iii) 反事实上限表明，在每个任务套件上，完美委托比实测性能高出 15 到 31 个百分点，为未来的编排方法留下了巨大的未实现空间。我们公开了该框架、标注层、参考干预套件、分析流程以及 220 个按条件运行的存档。

📖 阅读原文 →