🌐 机器翻译 · DeepSeek · ArXiv
PIVOT: Bridging Planning and Execution in LLM Agents via Trajectory Refinement
摘要:基于大型语言模型(LLM)的智能体常常生成看似连贯的计划,但在执行过程中因不可行动作、约束违反以及长期任务中的累积错误而失败。PIVOT(Plan-Inspect-eVOlve Trajectories)通过一种自监督框架解决了这种计划与执行之间的错位问题,该框架将轨迹视为可通过环境交互迭代优化的对象。该框架包含四个阶段:PLAN 阶段生成候选轨迹;INSPECT 阶段执行这些轨迹,并计算带有文本梯度的结构化损失,以编码计划与执行之间的差异;EVOLVE 阶段利用这些信号生成改进后的轨迹;VERIFY 阶段则对任务约束进行最终全局检查。单调接受过程确保了解决方案质量不会下降。在 DeepPlanning 和 GAIA 上的实证评估展示了最先进的性能:在引入人类反馈(HITL)的情况下,PIVOT 在约束满足方面建立了高达 94% 相对改进的强上界,而其完全自主的变体仍保留了显著增益,表明核心的轨迹优化机制在无外部监督时依然有效。同时,PIVOT 在计算上保持高效,所需 token 数量比同类优化方法少 3 到 5 倍。这些发现表明,基于(自监督或人类监督)反馈的轨迹优化是弥补自主智能体系统中计划执行差距的一种原则性方法论。