🌐 机器翻译 · DeepSeek · ArXiv
CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation
摘要:用于 MAPDL 有限元仿真的大语言模型在实际应用中面临可靠性挑战:缺乏结构化执行控制、工具封装和故障恢复机制时,输出可能不一致,任务失败也较为常见。Agent Harness 范式通过插入领域特定的编排中间件来管理工具生命周期、工作流状态和恢复升级,从而解决了这一问题。本文介绍了 CAX-Agent 的架构——这是一个专为 MAPDL 自动化设计的轻量级 Agent Harness,并对其核心组件之一——恢复策略——进行了实证评估。CAX-Agent 将执行过程组织为三个层次——LLM 服务层、Agent Harness 层和求解器后端层——并采用一种恢复阶梯机制,该机制从确定性规则修补开始,依次升级到模型驱动的重新生成、上下文增强,直至人工干预。我们在 50 个标准结构基准测试上评估了三种恢复策略(无恢复、仅规则恢复、仅模型恢复),每种策略重复运行三次(共 450 个案例运行)。两位独立的人类评分员在盲测条件下对任务完成情况进行评分;评分者间一致性较强(二次加权 Cohen's kappa = 0.84,96% 的评分对差值在一分以内)。仅模型恢复取得了最高的完成率(0.9267)、任务得分(3.59/4)、总分(9.16/10)和零干预率(0.84),显著优于仅规则恢复(0.7733、3.17/4、7.03/10、0.00)和无恢复(0.6933、2.74/4、5.60/10、0.00),且效应量较大(Cliff's delta = 0.81-0.87)。该基准测试有意采用简单几何形状,以隔离恢复策略的影响;我们讨论了这些发现的适用范围以及更广泛验证的方向。