Towards Multi-Agent Autonomous Reasoning in Hydrodynamics

摘要： 单智能体系统（SAS）已成为大语言模型驱动科学工作流的默认模式，但通过单一上下文窗口进行路线规划、工具使用与结果合成，会带来一个众所周知的代价：随着工具规范与观测记录的累积，每次决策可用的有效上下文空间逐渐缩小，端到端的可靠性也随之下降。我们提出了一种面向流体动力学的多智能体系统（MAS）原型，其中专业智能体通过层级执行图（LEG）进行协调。规划智能体利用自然语言路由启发式规则，构建针对特定查询的执行拓扑结构——这些规则能够捕捉领域知识，而无需将其硬编码为僵化的控制逻辑；专业智能体在严格的工具白名单下运行，并承担互补的数据类别角色。在层级之间，整合智能体将并行输出融合为简洁简报，报告智能体则合成最终响应；同时，运行时系统会记录每次工具调用的来源信息，以支持审计追踪。所有基准测试、消融实验与压力测试均使用 Claude Sonnet~4.6 作为专业智能体与通用智能体的骨干模型。在涵盖六个复杂度类别的 37 个查询上评估，该原型实现了 93.6% 的事实准确率与 100% 的通过率。从单线程到五个独立并行轨道的运行中，准确率始终保持在 90% 以上；在模拟个别数据源丢失的情况下，系统性能优雅退化，仍能返回有实质内容的部分答案。综合来看，这些结果表明，由规划器引导、基于图结构的多智能体编排，能够有效缓解制约单体单智能体架构的上下文饱和瓶颈。