Energy per Successful Goal: Goal-Level Energy Accounting for Agentic AI Systems

摘要： 当前的AI能耗基准以单次模型调用或训练运行的粒度衡量能耗。对于传统的单轮工作负载，这一单位尚保持一致。但对于智能体系统——其中单个用户目标可能触发多步编排、工具调用、重试以及失败恢复循环——调用次数是实现的产物而非任务属性，推理级归一化会错误反映目标完成的能耗成本。我们提出A-LEMS（智能体LLM能耗测量系统），这是一个跨层测量框架，将AI能耗核算单位从“每次推理能耗”重新定义为“每个成功目标的能耗”（Energy per Successful Goal, EpG）。EpG汇总所有执行尝试（包括失败和重试）中的总工作流能耗，并按成功完成的目标数进行归一化。A-LEMS通过时间边界模型、将RAPL信号映射到工作流级能耗的五层观测流水线，以及将每次测量绑定到硬件和运行时配置的可复现协议，形式化了能耗归因。基于EpG，我们定义了编排开销指数（Orchestration Overhead Index, OOI），用于在相同任务标准下，隔离编排相对于线性执行的能耗成本。在五个推理任务族和三个工具增强任务族中，智能体工作流每个成功目标的平均能耗是线性基线的4.33倍（888.1焦耳 vs 205.3焦耳）。这一开销由编排结构驱动，而非推理计算。对于工具增强任务，OOI反转至低于1.0倍：智能体执行比线性执行更便宜，证实该指标捕捉的是编排结构而非固定的向上偏差。这些发现表明，“每次推理能耗”不足以衡量智能体AI。EpG和OOI为准确基准测试提供了测量基础，其中编排结构是能耗成本的主要决定因素。