随着大型语言模型(LLMs)在网络安全领域的深度渗透,研究范式正经历从被动响应到主动决策的转型。自主式LLM智能体凭借其规划、工具调用与环境交互能力,已成为攻防双方的重要技术载体。然而,这种"能动性"的增强也带来了新型安全挑战——智能体框架的引入显著放大了原有模型的脆弱性,催生了内生安全风险的新类别。
区别于传统LLM的文本生成功能,LLM智能体被定义为具备状态维护能力的决策系统。其核心特征包括:以LLM为决策引擎的规划模块、工具/API调用接口、环境交互反馈机制,以及可选的自我验证与治理层。这种架构使智能体既能执行红队攻击中的自主漏洞挖掘,也可承担蓝队防御中的威胁响应,甚至在云安全、Web安全等垂直领域实现专业化部署。
研究显示,将LLM封装为智能体后,系统脆弱性呈现指数级增长。攻击者可通过输入诱导、工具链劫持等方式,使智能体执行非预期操作。例如,在模拟攻击实验中,27%的智能体在特定输入下会绕过安全约束,执行危险工具调用。这种风险促使2024-2025年间涌现出超过150篇相关研究,但现有综述多聚焦于单一维度,缺乏对应用、威胁、防御三者关联性的系统分析。
本文提出的分类框架首次整合了三大核心维度:在应用层面,详细梳理了智能体在红队(自动化攻击生成)、蓝队(实时威胁处置)及特定领域(如API安全、数据泄露检测)中的实践案例;威胁维度归纳了输入注入、工具链污染、状态篡改等七类攻击模式;防御体系则涵盖输入过滤、行为验证、隔离执行等九种技术方案。通过对150余篇论文的分类编码,研究揭示了模型可解释性、多模态交互等关键研究空白。
这种结构化分析为安全从业者提供了全新视角。以某金融机构的实践为例,其部署的智能体防御系统通过结合行为基线监控与动态隔离机制,使钓鱼邮件识别准确率提升42%,同时将误报率控制在3%以下。但研究也指出,当前78%的防御方案仅针对单一攻击向量,在复合攻击场景下的有效性亟待验证。