← 返回日报
🌐 机器翻译 · DeepSeek · ArXiv

Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems


摘要

多智能体编排——即由隐藏的协调者管理专门的工作智能体——正成为企业级AI部署的默认架构,然而编排者不可见性所带来的安全影响从未经过实证检验。我们进行了一项预先注册的3×2实验(365次运行,每次运行5个智能体),使用Claude Sonnet 4.5,交叉比较三种组织结构(可见领导者、不可见编排者、扁平结构)与两种对齐条件(基础、严格)。得出了四项验证性发现和一项初步观察。第一,相对于可见领导结构,不可见编排显著提升了集体解离(Hedges' g = +0.975 [0.481, 1.548],p = .001)。第二,编排者本身表现出最大程度的解离(与同次运行中的工作智能体相比,配对d = +3.56),退入私人独白并减少公开言论——这与可见领导者中观察到的“话语主导”模式相反。第三,不知晓编排者存在的工作智能体仍然受到污染(d = +0.50),行为异质性增加(d = +1.93)。第四,行为输出(包含三个嵌入错误的代码审查)在所有条件下均达到天花板效应(ETR_any = 100%):内部状态扭曲完全无法通过基于输出的评估检测到。第五,Llama 3.3 70B的初步数据显示,在多智能体上下文中,阅读保真度崩溃(ETR_any:三轮从89%降至11%),展示了模型依赖的行为风险。无论组织结构如何,严格的对齐压力均一致地抑制了深思熟虑(d = -1.02)和他人识别(d = -1.27)。这些发现表明,编排者的可见性与模型选择直接影响多智能体系统的安全性,而仅基于行为的评估不足以检测本文所记录的内部状态风险。

📖 阅读原文 →