摘要: 当前的AI能耗基准以单次模型调用或训练运行的粒度衡量能耗。对于传统的单轮工作负载,这一单位尚保持一致。但对于智能体系统——其中单个用户目标可能触发多步编排、工具调用、重试以及失败恢复循环——调用次数是实现的产物而非任务属性,推理级归一化会错误反映目标完成的能耗成本。我们提出A-LEMS(智能体LLM能耗测量系统),这是一个跨层测量框架,将AI能耗核算单位从“每次推理能耗”重新定义为“每个成功目标的能耗”(Energy per Successful Goal, EpG)。EpG汇总所有执行尝试(包括失败和重试)中的总工作流能耗,并按成功完成的目标数进行归一化。A-LEMS通过时间边界模型、将RAPL信号映射到工作流级能耗的五层观测流水线,以及将每次测量绑定到硬件和运行时配置的可复现协议,形式化了能耗归因。基于EpG,我们定义了编排开销指数(Orchestration Overhead Index, OOI),用于在相同任务标准下,隔离编排相对于线性执行的能耗成本。在五个推理任务族和三个工具增强任务族中,智能体工作流每个成功目标的平均能耗是线性基线的4.33倍(888.1焦耳 vs 205.3焦耳)。这一开销由编排结构驱动,而非推理计算。对于工具增强任务,OOI反转至低于1.0倍:智能体执行比线性执行更便宜,证实该指标捕捉的是编排结构而非固定的向上偏差。这些发现表明,“每次推理能耗”不足以衡量智能体AI。EpG和OOI为准确基准测试提供了测量基础,其中编排结构是能耗成本的主要决定因素。