SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

摘要： 尽管大型语言模型（LLM）取得了显著成功，但在动态、真实世界的部署场景中仍面临瓶颈，主要挑战在于概念漂移以及基于梯度的适应方法成本过高。传统的微调（FT）难以适应非平稳数据流，要么导致灾难性遗忘，要么需要大量人工数据整理。为了解决流式学习和持续学习范式中的这些局限，我们提出了自优化终身自主推理器（SOLAR）——一种开放式自主智能体，它利用参数级元学习实现自我改进，将模型权重视为可供探索的环境。该过程首先整合一个关于常识知识的强先验，使其能有效进行迁移学习。通过采用多层级强化学习方法，SOLAR 能够自主发现适应策略，从而在测试阶段高效适应未见过的领域。关键在于，SOLAR 维护着一个不断演化的有效修改策略知识库，这隐式地充当了情景记忆缓冲区，以平衡可塑性（适应新任务）与稳定性（保留元知识）。实验表明，在常识、数学、医学、编程、社交和逻辑推理任务上，SOLAR 均优于强基线模型，这标志着向能够在不断变化的环境中进行终身适应的自主智能体迈出了重要一步。