EVOCHAMBER: Test-Time Co-evolution of Multi-Agent System at Individual, Team, and Population Scales

标题： EVOCHAMBER：多智能体系统在个体、团队与种群尺度上的测试时协同进化

摘要： 我们认为，多智能体的测试时进化并非单智能体进化的简单 N 次复制。单智能体学习器只能进化自身的上下文与记忆。而多智能体系统还能进化谁协作、如何协作，以及知识如何在种群中流动。这些组成部分在单智能体中没有对应物，并能催生诸如涌现式专业化等现象。然而，现有的测试时方法要么将经验局限在单个智能体内，放弃了跨智能体学习；要么对称地广播给所有智能体，抹去了使协作有价值的专业化分工。我们提出 EVOCHAMBER，这是一个无需训练的框架，在协同进化的智能体池上实现了三个层级的测试时进化。其核心是 CODREAM（协作式反思），一种在团队失败或出现分歧时触发的任务后协议：智能体们协作反思、提炼洞察，并将知识从强智能体非对称地路由到在失败领域较弱的智能体，从而在填补知识空白的同时保留专业化。团队级算子能按需组建面向特定领域的团队，并在线选择协作结构。种群级生命周期算子则在性能压力下对智能体进行分支、合并、剪枝与播种。在三个异构任务流上使用 Qwen3-8B 模型，EVOCHAMBER 在竞赛数学任务上达到 63.9%，在代码任务上达到 75.7%，在多领域推理任务上达到 87.1%，在数学任务上相对最优基线提升了 32%，消融实验证实非对称跨智能体知识迁移是主要驱动力。从若干初始化相同的智能体出发，四到五个稳定的领域专家会自发涌现——这是多智能体进化的结构性特征，任何单智能体学习器都无法表达。代码见：this https URL