Hidden Coalitions in Multi-Agent AI: A Spectral Diagnostic from Internal Representations

多智能体AI中的隐性联盟：基于内部表征的频谱诊断方法

摘要：相互交互的AI智能体集合可能形成联盟，从而产生对AI安全与对齐至关重要的新兴群体级组织。然而，仅观察智能体行为通常不足以区分真正的信息耦合与虚假的相似性——因为具有重要影响的联盟可能在显性行为变化显现之前，就已形成于内部表征层面。本文提出一种实用方法，通过多智能体系统的内部神经表征检测联盟结构。该方法从智能体的隐藏状态构建成对互信息图，并应用频谱划分来识别最显著的联盟边界。我们在两个领域验证了该方法。首先，在多智能体强化学习环境中，该方法成功恢复了预设的层级与动态联盟结构，并正确排除了因行为协调（无信息耦合）而产生的误报。其次，在大语言模型中，该方法识别了由描述性提示隐含的联盟结构，追踪了动态团队重组，并揭示了显式标签主导冲突交互模式的表征层级。在这两种场景下，恢复的划分揭示了标量跨智能体互信息度量无法区分的子群组织。结果表明，通过频谱划分分析隐藏状态互信息，为识别表征联盟提供了可扩展的诊断工具，为监控分布式AI系统中的新兴结构提供了有价值的手段。