Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions

摘要： 基于多模态大语言模型（MLLM）的具身智能体在解决物理环境中的复杂任务方面展现出强大潜力。然而，个性化辅助不仅需要遵循通用指令或识别物体类别。在真实场景中，目标对象往往仅通过先前的交互被隐式指定，这就要求智能体能够利用随时间积累的个性化上下文。为此，我们提出 POLAR，一种面向长期用户交互的多模态记忆增强框架，用于构建个性化具身智能体。POLAR 将先前的交互组织为多模态知识图谱，其中包含用于存储个性化上下文和视觉概念的语义记忆，以及用于存储具身体验（如智能体轨迹）的情景记忆。在执行具身任务时，POLAR 会检索相关记忆以解读当前请求并指导任务执行。我们在多个 MLLM 主干网络和多样化评估场景下对 POLAR 进行了评估，以研究记忆在长期个性化中的作用。结果表明，所提出的记忆机制能够更有效地利用先前交互中积累的信息，从而持续提升性能。当智能体需要跨多次交互进行推理、执行多跳推理或随时间追踪用户特定上下文的更新时，性能提升尤为显著。