Progressive Autonomy as Preference Learning: A Formalization of Trust Calibration for Agentic Tool Use

标题：渐进式自主作为偏好学习：面向智能体工具使用的信任校准形式化

摘要： 我们将面向智能体工具使用的信任校准（即决定自动化智能体的提议动作是自主执行还是需要人工批准）形式化为一个偏好学习问题。一个策略网关维护着一个关于潜在人类风险容忍度函数的高斯过程后验，该后验通过二元批准/拒绝反馈上的probit似然函数进行观测，并在批准结果最不确定时升级给人类。我们证明，这在结构上是偏好贝叶斯优化的一个实例，继承了其推理机制（近似高斯过程分类）及其样本效率论证（不确定性导向的查询），但在目标上有所不同：将动作空间分类为允许/阻止/询问区域，而非优化一个设计。