标题: 基于宏动作的宏动作价值校正指令遵循方法
摘要: 现实场景中的多智能体强化学习(MARL)可能需要适应外部自然语言指令,这些指令会中断正在执行的行为并与长期目标产生冲突。然而,将奖励与指令条件关联会引入一种根本性的失败模式:由于贝尔曼更新会在不同指令上下文中耦合价值估计,当指令中断宏动作时,会导致价值估计不一致。我们提出了一种用于指令遵循的宏动作价值校正方法(MAVIC),该方法通过在指令边界处校正贝尔曼回溯:修正传入的指令目标,并恢复当前目标下的延续价值。与奖励塑形不同,MAVIC直接修改自举目标本身,从而在统一策略下实现随机指令切换时的一致价值估计。我们提供了理论分析及演员-评论家实现,并证明在日益复杂的合作型多智能体环境中,MAVIC能够在保持基础任务性能的同时实现高指令遵循率。