← 返回日报
🌐 机器翻译 · DeepSeek · ArXiv

Toward Reliable Design of LLM-Enabled Agentic Workflows: Optimizing Latency-Reliability-Cost Tradeoffs


摘要: 现代人工智能系统日益依赖由多个交互式智能体(agent)组成的工作流,其中部分智能体由大型语言模型(LLM)驱动,其余则由传统计算模块构成。本文分析了在基于LLM的智能体工作流中,延迟、可靠性与成本之间的基本权衡关系。我们为LLM智能体与非LLM智能体引入了性能模型,这些模型能够捕捉计算投入与输出质量之间的关系,并通过参数化指数可靠性函数,将LLM智能体的推理与输出令牌(token)的影响纳入考量。在此基础上,我们研究了在延迟与成本约束下的顺序工作流设计问题。主要成果包括一种注水式令牌分配策略(water-filling token allocation policy),以及基于影子价格(shadow prices)对最优工作流可靠性的刻画。

📖 阅读原文 →