BALAR : A Bayesian Agentic Loop for Active Reasoning

BALAR：一种用于主动推理的贝叶斯智能体循环

摘要： 大型语言模型越来越多地运行在交互式环境中，在此类环境中，解决一个任务需要与用户进行多轮信息交换。然而，当前大多数系统被动地处理对话，缺乏一种原则性的机制来推理缺失了哪些信息以及接下来应提出什么问题。我们提出了 BALAR（用于主动推理的贝叶斯智能体循环），这是一种与任务无关的外循环算法，无需微调，即可实现 LLM 智能体与用户之间结构化的多轮交互。BALAR 维护一个关于潜在状态的结构化信念，通过最大化期望互信息来选择澄清性问题，并在当前状态表示不足时动态扩展其状态表示。我们在三个不同的基准测试上评估了 BALAR：AR-Bench-DC（侦探案件）、AR-Bench-SP（思维谜题）和 iCraft-MD（临床诊断）。BALAR 在所有三个基准测试中均显著优于所有基线，在 AR-Bench-DC 上准确率提高 $14.6\%$，在 AR-Bench-SP 上提高 $38.5\%$，在 iCraft-MD 上提高 $30.5\%$。