Can Coding Agents Reproduce Findings in Computational Materials Science?

标题： 编码智能体能否复现计算材料科学中的研究发现？

摘要： 大型语言模型正越来越多地被部署为自主编码智能体，并在软件工程基准测试中取得了极为强劲的表现。然而，尚不清楚这种成功是否能迁移到计算科学工作流中——这类任务不仅要求强大的编码能力，还需要能够驾驭复杂、领域特定的流程，并在科学论断的背景下解释结果。为探究这一问题，我们提出了 AutoMat，一个用于评估基于 LLM 的智能体复现计算材料科学论断能力的基准。AutoMat 提出了三个相互关联的挑战：恢复未充分指定的计算流程、驾驭专业化的工具链，以及判断所得证据是否支持某一论断。通过与领域专家密切合作，我们从真实的材料科学论文中精选了一组论断，以测试编码智能体能否恢复并执行支持（或反驳）这些论断所需的端到端工作流。随后，我们在多个基础模型上评估了若干具有代表性的编码智能体设置。结果表明，当前基于 LLM 的智能体在 AutoMat 上的总体成功率较低，表现最佳的设置也仅达到 54.1% 的成功率。错误分析进一步揭示，当工作流必须仅从论文文本中重建时，智能体的表现最差，且失败的主要原因在于流程不完整、方法偏离以及执行脆弱性。综合来看，这些发现使 AutoMat 既成为计算科学可复现性的一个基准，也成为诊断当前智能体系统在“人工智能驱动科学”场景下局限性的工具。