← 返回日报
🌐 机器翻译 · DeepSeek · ArXiv

A Low-Latency Fraud Detection Layer for Detecting Adversarial Interaction Patterns in LLM-Powered Agents


摘要

基于大型语言模型(LLM)的智能体在自主任务执行、工具使用和多步推理方面展现出强大能力。然而,其日益增长的自主性也引入了新的攻击面:对抗性交互可通过直接提示注入、间接内容攻击及多轮升级策略操纵智能体行为。现有防御策略侧重于提示级过滤和基于规则的防护栏,但当风险在交互序列中逐步显现时,这些方法往往力有不逮。本研究提出一种互补性防御机制:一种用于检测LLM驱动智能体中对抗性交互模式的低延迟欺诈检测层。我们的方法并非判断单个提示是否恶意,而是利用从提示特征、会话动态、工具使用、执行上下文及欺诈启发信号中提取的结构化运行时特征,对交互轨迹上的风险进行建模。该检测层可通过轻量级模型实现,从而支持低延迟的实时部署。为评估该框架,我们基于参数化模板构建了一个包含12,000条多轮智能体交互的合成语料库,这些模板模拟了真实的智能体工作流程。利用42个结构化特征与XGBoost分类器,我们的检测器速度比基于LLM的检测器快9倍以上。通过实验与消融研究,本研究表明交互级行为检测应成为LLM驱动智能体部署时防御的核心组成部分。

📖 阅读原文 →