标题: 编码智能体能否复现计算材料科学中的研究发现?
摘要: 大型语言模型正越来越多地被部署为自主编码智能体,并在软件工程基准测试中取得了极为强劲的表现。然而,尚不清楚这种成功是否能迁移到计算科学工作流中——这类任务不仅要求强大的编码能力,还需要能够驾驭复杂、领域特定的流程,并在科学论断的背景下解释结果。为探究这一问题,我们提出了 AutoMat,一个用于评估基于 LLM 的智能体复现计算材料科学论断能力的基准。AutoMat 提出了三个相互关联的挑战:恢复未充分指定的计算流程、驾驭专业化的工具链,以及判断所得证据是否支持某一论断。通过与领域专家密切合作,我们从真实的材料科学论文中精选了一组论断,以测试编码智能体能否恢复并执行支持(或反驳)这些论断所需的端到端工作流。随后,我们在多个基础模型上评估了若干具有代表性的编码智能体设置。结果表明,当前基于 LLM 的智能体在 AutoMat 上的总体成功率较低,表现最佳的设置也仅达到 54.1% 的成功率。错误分析进一步揭示,当工作流必须仅从论文文本中重建时,智能体的表现最差,且失败的主要原因在于流程不完整、方法偏离以及执行脆弱性。综合来看,这些发现使 AutoMat 既成为计算科学可复现性的一个基准,也成为诊断当前智能体系统在“人工智能驱动科学”场景下局限性的工具。