← 返回日报
🌐 机器翻译 · DeepSeek · ArXiv

PolitNuggets: Benchmarking Agentic Discovery of Long-Tail Political Facts


摘要

嵌入在智能体框架中的大型推理模型(Large Reasoning Models, LRMs)已将信息检索从静态的长上下文问答转变为开放式探索。然而,现实世界的应用要求模型能够从分散的来源中发现并综合长尾事实,这一能力目前仍缺乏充分评估。我们提出 PolitNuggets,一个用于智能体信息综合的多语言基准测试,通过为 400 位全球精英构建政治传记,覆盖超过 10,000 条政治事实。我们利用优化的多智能体系统标准化评估流程,并提出 FactNet——一种基于证据的条件协议,用于评分发现能力、细粒度准确性和效率。在不同模型与设置下,我们发现当前系统在处理细粒度细节时往往表现不佳,且效率差异显著。最后,借助基准诊断,我们将智能体表现与底层模型能力相关联,突显了短上下文提取、多语言鲁棒性和可靠工具使用的重要性。

📖 阅读原文 →