MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

摘要

情景记忆使大语言模型（LLM）智能体能够积累和检索经验，但当前方法将每条记忆独立处理，即孤立地评估检索质量，而未考虑记忆之间通过依赖链相互关联——正是这些依赖链使得记忆能够促成后续记忆的生成。我们提出 MemQ，该方法将 TD($\lambda$) 资格迹应用于记忆 Q 值，通过记录每条新记忆创建时检索了哪些记忆的溯源有向无环图（provenance DAG），沿该图反向传播信用。信用权重随 DAG 深度 $d$ 以 $(\gamma\lambda)^d$ 衰减，用结构邻近性替代时间距离。我们将该设定形式化为外生上下文马尔可夫决策过程（Exogenous-Context MDP），其分解式转移将外生任务流与内生记忆存储解耦。在涵盖操作系统交互、函数调用、代码生成、多模态推理、具身推理及专家级问答的六个基准测试中，MemQ 在泛化评估和运行时学习两项指标上均取得全部六项任务的最佳成功率，其中在产生深层且相关溯源链的多步骤任务上提升最大（最高 +5.7 个百分点），而在单步更新已足够有效的单步分类任务上提升最小（+0.77 个百分点）。我们进一步研究了 $\gamma$ 和 $\lambda$ 如何与 EC-MDP 结构相互作用，为参数选择及未来研究提供了原则性指导。代码即将发布。