Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

摘要： 将自由文本的表型描述链接到本体术语（通常称为表型注释）对于比较形态学数据的跨研究整合至关重要。这一劳动密集型过程严重依赖经过高度训练的人类专家，因此难以规模化，成为一个关键瓶颈。Dahdul 等人（2018）建立了涵盖七项系统发育研究的实体-质量（EQ）注释黄金标准（GS），并以此评估了三位人类策展人以及基于本体语义相似度指标的语义特征解析器（Semantic CharaParser）NLP 工具；他们报告称，机器与人类之间的一致性显著低于策展人之间（人类与人类）的一致性。在此，我们使用来自 Anthropic 和 OpenAI 的五种前沿托管 LLM 重新审视该基准测试，每个 LLM 作为一个自主策展代理，在一个自包含的工作空间中运行，该工作空间提供了源出版物 PDF、原始人类策展人使用的相同注释指南、四个项目本体（UBERON、PATO、BSPO、GO）以及一个验证脚本。与同一黄金标准进行评估时，每个代理的表现均落在原始研究中三位受过训练的人类生物策展人之间的策展人差异范围内；表现最佳的代理接近但未达到表现最佳的人类策展人。在所有四项指标上，代理均显著优于语义特征解析器（Semantic CharaParser）。