← 返回日报

🌐 机器翻译 · DeepSeek · ArXiv

CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation

摘要：用于 MAPDL 有限元仿真的大语言模型在实际应用中面临可靠性挑战：缺乏结构化执行控制、工具封装和故障恢复机制时，输出可能不一致，任务失败也较为常见。Agent Harness 范式通过插入领域特定的编排中间件来管理工具生命周期、工作流状态和恢复升级，从而解决了这一问题。本文介绍了 CAX-Agent 的架构——这是一个专为 MAPDL 自动化设计的轻量级 Agent Harness，并对其核心组件之一——恢复策略——进行了实证评估。CAX-Agent 将执行过程组织为三个层次——LLM 服务层、Agent Harness 层和求解器后端层——并采用一种恢复阶梯机制，该机制从确定性规则修补开始，依次升级到模型驱动的重新生成、上下文增强，直至人工干预。我们在 50 个标准结构基准测试上评估了三种恢复策略（无恢复、仅规则恢复、仅模型恢复），每种策略重复运行三次（共 450 个案例运行）。两位独立的人类评分员在盲测条件下对任务完成情况进行评分；评分者间一致性较强（二次加权 Cohen's kappa = 0.84，96% 的评分对差值在一分以内）。仅模型恢复取得了最高的完成率（0.9267）、任务得分（3.59/4）、总分（9.16/10）和零干预率（0.84），显著优于仅规则恢复（0.7733、3.17/4、7.03/10、0.00）和无恢复（0.6933、2.74/4、5.60/10、0.00），且效应量较大（Cliff's delta = 0.81-0.87）。该基准测试有意采用简单几何形状，以隔离恢复策略的影响；我们讨论了这些发现的适用范围以及更广泛验证的方向。

📖 阅读原文 →