Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

标题： 基于宏动作的宏动作价值校正指令遵循方法

摘要： 现实应用中的多智能体强化学习（MARL）可能需要适应外部自然语言指令，这些指令会中断正在执行的行为，并与长期目标产生冲突。然而，将奖励与指令条件绑定会引入一种根本性的失败模式：由于贝尔曼更新会在不同指令上下文中耦合价值估计，当指令中断宏动作时，会导致价值估计不一致。我们提出了一种用于指令遵循的宏动作价值校正方法（MAVIC），该方法通过校正传入的指令目标并恢复当前目标下的延续价值，来修正指令边界处的贝尔曼回溯。与奖励塑形不同，MAVIC直接修改自举目标本身，从而在统一策略下实现随机指令切换时的一致价值估计。我们提供了理论分析及一个演员-评论家实现，并证明在日益复杂的协作多智能体环境中，MAVIC能够在保持基础任务性能的同时实现高指令遵循率。