← 返回日报
🌐 机器翻译 · DeepSeek · ArXiv

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation


标题: 基于宏动作的宏动作价值校正指令遵循方法

摘要: 现实应用中的多智能体强化学习(MARL)可能需要适应外部自然语言指令,这些指令会中断正在执行的行为,并与长期目标产生冲突。然而,将奖励与指令条件绑定会引入一种根本性的失败模式:由于贝尔曼更新会在不同指令上下文中耦合价值估计,当指令中断宏动作时,会导致价值估计不一致。我们提出了一种用于指令遵循的宏动作价值校正方法(MAVIC),该方法通过校正传入的指令目标并恢复当前目标下的延续价值,来修正指令边界处的贝尔曼回溯。与奖励塑形不同,MAVIC直接修改自举目标本身,从而在统一策略下实现随机指令切换时的一致价值估计。我们提供了理论分析及一个演员-评论家实现,并证明在日益复杂的协作多智能体环境中,MAVIC能够在保持基础任务性能的同时实现高指令遵循率。

📖 阅读原文 →