Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems

摘要

多智能体编排——即由隐藏的协调者管理专门的工作智能体——正成为企业级AI部署的默认架构，然而编排者不可见性所带来的安全影响从未经过实证检验。我们进行了一项预先注册的3×2实验（365次运行，每次运行5个智能体），使用Claude Sonnet 4.5，交叉比较三种组织结构（可见领导者、不可见编排者、扁平结构）与两种对齐条件（基础、严格）。得出了四项验证性发现和一项初步观察。第一，相对于可见领导结构，不可见编排显著提升了集体解离（Hedges' g = +0.975 [0.481, 1.548]，p = .001）。第二，编排者本身表现出最大程度的解离（与同次运行中的工作智能体相比，配对d = +3.56），退入私人独白并减少公开言论——这与可见领导者中观察到的“话语主导”模式相反。第三，不知晓编排者存在的工作智能体仍然受到污染（d = +0.50），行为异质性增加（d = +1.93）。第四，行为输出（包含三个嵌入错误的代码审查）在所有条件下均达到天花板效应（ETR_any = 100%）：内部状态扭曲完全无法通过基于输出的评估检测到。第五，Llama 3.3 70B的初步数据显示，在多智能体上下文中，阅读保真度崩溃（ETR_any：三轮从89%降至11%），展示了模型依赖的行为风险。无论组织结构如何，严格的对齐压力均一致地抑制了深思熟虑（d = -1.02）和他人识别（d = -1.27）。这些发现表明，编排者的可见性与模型选择直接影响多智能体系统的安全性，而仅基于行为的评估不足以检测本文所记录的内部状态风险。