Why LLMs Fail at Causal Discovery and How Interventional Agents Escape

摘要： 因果发现是科学推理的基石，但大型语言模型能否可靠地执行这一任务仍是一个未解之谜。最近的基准测试表明，即使是经过微调的模型，在简单的因果图上也会陷入瓶颈，并且随着复杂度增加性能下降，但其失败的原因尚未明确。我们证明这种失败是根本性的：监督微调、直接偏好优化和上下文学习都会产生无法区分生成相似观测数据的因果图的预测器，任何试图做到这一点的尝试都需要模型的内部表示无界增长，而这恰恰违反了这些方法有效工作的条件。我们将此形式化为一个核障碍定理，证明该限制是学习范式固有的，而非任何特定模型或数据集的问题。我们提出了智能体因果贝叶斯优化（A-CBO），其中冻结的语言模型作为干预预言机，回答关于干预效果的目标查询，而外部贝叶斯循环在对数级别的轮次中将信念集中在候选因果图上。由于决策在障碍适用的空间之外运行，A-CBO 在底层模型保持不变的情况下可证明地收敛。在 Corr2Cause 上，A-CBO 无需任何训练即可匹配微调基线。在 Extended Corr2Cause（一个扩展到 24 个变量、包含 18K 测试样本的新基准）上，A-CBO 显著优于微调和偏好优化，且优势持续增长。