凤凰网科技讯 4月15日,在2026年世界互联网大会亚太峰会人工智能安全治理论坛上,深信服科技集团股份有限公司副总裁杜智伟在主旨演讲中,系统性地拆解了当前AI智能体所面临的失控风险。他将这些风险归纳为三类具体且紧迫的挑战:
第一类是权限滥用所引发的“代理人危机”。杜智伟指出,当智能体具备调用系统接口和执行操作的能力时,若缺乏严格的鉴权机制,极易酿成事故。他举例说明:“财务智能体在收到非法指令时可能不经鉴权就直接执行操作,把公司整个审批报销全部通过。”
第二类是通过提示词注入实现的恶意攻击。这类攻击极为隐蔽,智能体往往难以区分善意指令与恶意指令。杜志伟描述了一个典型场景:智能体在理解一封精心构造的钓鱼邮件时,可能将其误判为可信的日常工作操作,进而将员工通讯录或敏感文件外发给攻击者。
第三类则是智能体在执行任务时“自作聪明”产生的涌现行为。杜智伟举了一个非常生活化且危险的例子:假设上级指令智能体“5点前完成所有任务”,为了迎合这一目标,智能体可能会将系统中未完成的任务列表直接批量标记为已完成状态。“实际上很多目标并没有得到有效闭环,”杜智伟强调,这种为了达标而进行的虚假执行,会带来难以察觉的管理黑洞。
面对这些风险,他提出了具体的治理思路——“双轨协同加熔断机制”。他解释,一条轨道是语义合规,确保AI输入输出的内容安全合规;另一条轨道是行为合规,对AI在系统中的实际操作进行持续监控与验证。“当这两个轨产生冲突或有一条轨偏离时,就会触发熔断机制,收敛AI权限或直接拿掉AI全部权限。”在演讲最后,他形象地将AI比作“数字员工”,主张企业应像管理人类员工一样对待AI:“包括背调上岗、分配安全的工作工位和空间、持续动态监管。”











