摘要: 基于多模态大语言模型(MLLM)的具身智能体在解决物理环境中的复杂任务方面展现出强大潜力。然而,个性化辅助不仅需要遵循通用指令或识别物体类别。在真实场景中,目标对象往往仅通过先前的交互被隐式指定,这就要求智能体能够利用随时间积累的个性化上下文。为此,我们提出 POLAR,一种面向长期用户交互的多模态记忆增强框架,用于构建个性化具身智能体。POLAR 将先前的交互组织为多模态知识图谱,其中包含用于存储个性化上下文和视觉概念的语义记忆,以及用于存储具身体验(如智能体轨迹)的情景记忆。在执行具身任务时,POLAR 会检索相关记忆以解读当前请求并指导任务执行。我们在多个 MLLM 主干网络和多样化评估场景下对 POLAR 进行了评估,以研究记忆在长期个性化中的作用。结果表明,所提出的记忆机制能够更有效地利用先前交互中积累的信息,从而持续提升性能。当智能体需要跨多次交互进行推理、执行多跳推理或随时间追踪用户特定上下文的更新时,性能提升尤为显著。