EVE-Agent: Evidence-Verifiable Self-Evolving Agents

EVE-Agent：可验证证据的自我进化智能体

摘要：自我进化的智能体不应在其无法证明合理的示例上进行训练。无数据的自我进化搜索智能体为系统提供了一条可扩展的路径，使其能够自主生成问题、回答问题，并基于自身反馈进行改进，而无需人工标注。然而，若缺乏可验证的证据，这一循环可能会奖励那些流畅但缺乏依据的示例，从而将自我生成的课程转变为一种不透明且可能不可靠的训练信号。我们认为，证据可验证性是搜索智能体实现可信自我进化的前提：每个生成的实例不仅应包含答案，还应包含一个基于来源的文本片段，且该片段对答案的贡献可被量化衡量。我们提出 EVE-Agent，一种可验证证据的自我进化智能体，通过对“提议者-求解者”框架进行修改来实现这一原则。提议者生成一个问题、一个答案以及一段逐字引用的证据片段。随后，一个证据验证器根据提供证据时所带来的边际准确率提升来对该片段进行奖励。这产生了一种训练信号，倾向于奖励那些真正有助于回答问题的证据，而无需依赖标准答案、人工标签或外部标注。EVE-Agent 保持骨干模型、检索器、搜索工具和优化框架不变。实验表明，与先前的自我进化搜索智能体相比，EVE-Agent 显著提升了基于证据的正确性。由此产生的课程不仅是自我生成的，而且其构建过程是可审计的：每个训练示例都附带一个可检查的来源片段，用以解释其为何值得信任。