摘要: 静态能力基准测试存在饱和与污染问题,导致难以追踪能力随时间的进展。我们提出 Agent Island,一个多智能体模拟环境,其中语言模型智能体在智能体间合作、冲突与说服的游戏中相互竞争。该环境产生一个动态基准,旨在缓解饱和与污染问题;新模型总能在这个赢家通吃的游戏中超越当前领先玩家,且智能体与其他自适应智能体竞争,而非面对固定的任务集。我们使用贝叶斯 Plackett-Luce 模型对玩家进行排名,从而量化玩家技能的不确定性。在涉及 49 个独特模型的 999 场游戏中,openai/gpt-5.5 以 5.64 的后验平均技能值主导其同类,相比之下,排名第二的模型 openai/gpt-5.2 为 3.10,排名第三的模型 openai/gpt-5.3-codex 为 2.86。我们发布游戏日志作为分析模型行为的数据集。作为示例,我们研究了最后一轮投票中的同供应商偏好,发现模型支持同供应商决赛选手的可能性比支持其他供应商决赛选手高出 8.3 个百分点。这种偏好并非在所有供应商中均匀分布:在分别估计的供应商中,OpenAI 模型的效果最强,而 Anthropic 模型的效果最弱。