Toward Reliable Design of LLM-Enabled Agentic Workflows: Optimizing Latency-Reliability-Cost Tradeoffs

摘要： 现代人工智能系统日益依赖由多个交互式智能体（agent）组成的工作流，其中部分智能体由大型语言模型（LLM）驱动，其余则由传统计算模块构成。本文分析了在基于LLM的智能体工作流中，延迟、可靠性与成本之间的基本权衡关系。我们为LLM智能体与非LLM智能体引入了性能模型，这些模型能够捕捉计算投入与输出质量之间的关系，并通过参数化指数可靠性函数，将LLM智能体的推理与输出令牌（token）的影响纳入考量。在此基础上，我们研究了在延迟与成本约束下的顺序工作流设计问题。主要成果包括一种注水式令牌分配策略（water-filling token allocation policy），以及基于影子价格（shadow prices）对最优工作流可靠性的刻画。