OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents

标题：OLIVIA：面向 LLM ReAct 智能体决策的推理时动作自适应在线学习

摘要： 大语言模型智能体通过交织推理、动作选择与观察来解决序列决策任务。在部署场景中，当智能体反复处理相关的多步骤任务时，微小的动作选择错误会累积为工具调用浪费、延迟增加和可靠性下降。尽管存在这种部署时改进的需求，现有针对 LLM 智能体的推理时自适应方法主要依赖提示或检索，通过上下文操控间接影响行为。对于 ReAct 风格的智能体，此类方法并未暴露一个显式的决策层来对候选动作评分、表示不确定性或根据动作级反馈进行在线更新。因此，它们在部署期间对可追踪、细粒度且具有不确定性感知的自适应支持有限。我们提出 OLIVIA，一个面向 ReAct 风格智能体的推理时动作自适应框架。OLIVIA 将 LLM 的最终动作选择层建模为候选动作上的上下文线性 Bandit，以冻结的隐藏状态作为决策上下文。这一选择特别适合部署场景，因为它直接在动作选择接口处调整行为，保留了底层推理过程，并提供了显式的不确定性估计以及基于动作级反馈的轻量级在线更新。通过上置信界探索，OLIVIA 以最小的计算开销实现了策略的样本高效改进。我们在四个基准测试上实例化 OLIVIA，结果表明，与静态 ReAct 和基于提示的推理时基线相比，它持续提升了任务性能。我们的研究结果表明，在 LLM 智能体部署期间，显式的在线决策层为纯提示或检索式自适应提供了一种有效的替代方案。