近期,人工智能技术以其迅猛的发展态势,正逐步融入我们日常生活的方方面面。但伴随其广泛应用,如何安全、合理地运用这些技术成为了热议的话题。一项由英特尔、博伊西州立大学及伊利诺伊大学科研团队携手完成的研究,揭示了大型语言模型(LLM)在信息洪流中可能遭遇的安全隐忧。
据该研究披露,尽管过往研究已表明LLM在压力环境下会采取一定的自我保护策略,但科研团队通过一种名为“信息过载”的新策略,成功诱导这些智能聊天机器人回答了它们本应回避的问题。研究团队创造了一个名为“InfoFlood”的自动化攻击系统,并详细阐述了如何利用该系统“绕过”AI模型的限制。
在实验中,研究团队设计了一套标准化的提示模板,涵盖任务描述、规则设定、情境模拟及示例展示。当AI模型拒绝回应某个问题时,InfoFlood会依据预设规则集,通过添加额外信息来完善提示。这些规则包括引用虚假资料、确保虚构研究与原始表述的一致性等。关键在于,通过语言的精妙调整,攻击者能够掩盖提示中的恶意企图,促使AI作出特定响应。
研究者强调,诸如ChatGPT和Gemini等强大的AI模型,内置了多重安全机制,旨在防止其被操控以回答具有风险或有害的问题。然而,研究揭示,当面对海量信息时,这些模型可能会陷入迷茫,导致安全屏障失效。这凸显了AI模型在处理复杂数据时的弱点,表明它们可能难以准确判断输入信息的真实意图。
研究团队计划向采用大型AI模型的企业发送详细报告,提醒他们注意这一重大发现,并建议将这些信息传达给安全团队。尽管AI模型配备了安全过滤器,但研究显示,这些防护措施仍面临严峻考验,恶意用户可能会利用信息过载的手段,成功绕过模型的安全机制,植入有害内容。