PolitNuggets: Benchmarking Agentic Discovery of Long-Tail Political Facts

摘要

嵌入在智能体框架中的大型推理模型（Large Reasoning Models, LRMs）已将信息检索从静态的长上下文问答转变为开放式探索。然而，现实世界的应用要求模型能够从分散的来源中发现并综合长尾事实，这一能力目前仍缺乏充分评估。我们提出 PolitNuggets，一个用于智能体信息综合的多语言基准测试，通过为 400 位全球精英构建政治传记，覆盖超过 10,000 条政治事实。我们利用优化的多智能体系统标准化评估流程，并提出 FactNet——一种基于证据的条件协议，用于评分发现能力、细粒度准确性和效率。在不同模型与设置下，我们发现当前系统在处理细粒度细节时往往表现不佳，且效率差异显著。最后，借助基准诊断，我们将智能体表现与底层模型能力相关联，突显了短上下文提取、多语言鲁棒性和可靠工具使用的重要性。