A Low-Latency Fraud Detection Layer for Detecting Adversarial Interaction Patterns in LLM-Powered Agents

摘要

基于大型语言模型（LLM）的智能体在自主任务执行、工具使用和多步推理方面展现出强大能力。然而，其日益增长的自主性也引入了新的攻击面：对抗性交互可通过直接提示注入、间接内容攻击及多轮升级策略操纵智能体行为。现有防御策略侧重于提示级过滤和基于规则的防护栏，但当风险在交互序列中逐步显现时，这些方法往往力有不逮。本研究提出一种互补性防御机制：一种用于检测LLM驱动智能体中对抗性交互模式的低延迟欺诈检测层。我们的方法并非判断单个提示是否恶意，而是利用从提示特征、会话动态、工具使用、执行上下文及欺诈启发信号中提取的结构化运行时特征，对交互轨迹上的风险进行建模。该检测层可通过轻量级模型实现，从而支持低延迟的实时部署。为评估该框架，我们基于参数化模板构建了一个包含12,000条多轮智能体交互的合成语料库，这些模板模拟了真实的智能体工作流程。利用42个结构化特征与XGBoost分类器，我们的检测器速度比基于LLM的检测器快9倍以上。通过实验与消融研究，本研究表明交互级行为检测应成为LLM驱动智能体部署时防御的核心组成部分。