多智能体AI中的隐性联盟:基于内部表征的频谱诊断方法
摘要:相互交互的AI智能体集合可能形成联盟,从而产生对AI安全与对齐至关重要的新兴群体级组织。然而,仅观察智能体行为通常不足以区分真正的信息耦合与虚假的相似性——因为具有重要影响的联盟可能在显性行为变化显现之前,就已形成于内部表征层面。本文提出一种实用方法,通过多智能体系统的内部神经表征检测联盟结构。该方法从智能体的隐藏状态构建成对互信息图,并应用频谱划分来识别最显著的联盟边界。我们在两个领域验证了该方法。首先,在多智能体强化学习环境中,该方法成功恢复了预设的层级与动态联盟结构,并正确排除了因行为协调(无信息耦合)而产生的误报。其次,在大语言模型中,该方法识别了由描述性提示隐含的联盟结构,追踪了动态团队重组,并揭示了显式标签主导冲突交互模式的表征层级。在这两种场景下,恢复的划分揭示了标量跨智能体互信息度量无法区分的子群组织。结果表明,通过频谱划分分析隐藏状态互信息,为识别表征联盟提供了可扩展的诊断工具,为监控分布式AI系统中的新兴结构提供了有价值的手段。