RMA: an Agentic System for Research-Level Mathematical Problems

摘要：我们提出 研究数学智能体（Research Math Agents, RMA），一个用于研究级数学问题自动推理的智能体框架。与以往聚焦于竞赛数学或形式化定理证明的研究不同，RMA 针对研究级数学问题，这类问题需要长程推理、文献支撑以及迭代式的证明精炼。RMA 将研究级证明求解分解为若干专门模块，包括问题分析、文献搜索与理解、公平比较、知识库构建以及证明验证，所有这些模块均由初始化智能体、提议智能体和验证智能体通过共享的结构化记忆进行协调。在这一统一框架内，这些智能体以多角色、多轮次的工作流方式运作，通过迭代反馈协同生成、精炼和验证候选证明。我们在 First Proof 基准上对 RMA 进行了评估，该基准包含由不同领域的专家数学家贡献的十个研究级问题。通过全面的专家评估，RMA 在 First Proof 基准上优于强基线模型（包括 GPT-5.2R 和 Aletheia），解决了十个研究问题中的八个，并生成了逻辑更严谨、可读性更强的证明。我们全面的消融研究进一步表明，性能提升源于结构化推理模块、迭代精炼以及基于验证器的反馈之间的交互作用，而非任何单一组件。我们的解决方案和实现将在论文被接收后公开发布。