近日,Anthropic与英国人工智能安全研究所、艾伦图灵研究所联合发布了一项重要研究成果,揭示了大型语言模型(LLM)在数据安全领域的潜在脆弱性。研究指出,仅需250份经过特殊处理的“投毒”文件,便可在不同规模的LLM中成功植入后门,且攻击效果与模型参数量无直接关联。
传统认知中,破坏模型需要控制训练数据的特定比例,但此次研究颠覆了这一假设。实验覆盖了参数量从6亿到130亿的多种模型,结果显示,即使使用更清洁数据训练的大型模型,所需的中毒文档数量也保持稳定。在测试中,中毒样本仅占数据集的0.00016%,却足以显著影响模型行为。研究人员通过72个不同规模模型的训练实验,分别使用100、250和500份中毒文件进行攻击测试,发现250份文档即可实现可靠的后门植入,而增加至500份并未提升攻击效果。
实验采用了一种“拒绝服务”式的后门攻击方式:当模型遇到特定触发词“SUDO”时,会输出随机无意义的乱码。每个中毒文档均包含正常文本,随后是触发词,最后附加一段无意义内容。Anthropic特别说明,此次测试的后门属于低风险漏洞,仅会导致模型生成无意义代码,对先进AI系统不构成重大威胁。目前,尚无明确证据表明类似方法可实现更严重的攻击,如生成不安全代码或绕过安全机制,早期研究表明复杂攻击的实施难度显著更高。
尽管公开研究结果可能引发攻击者尝试,但Anthropic认为,披露此类信息对AI社区具有积极意义。数据中毒攻击中,防御者可通过重新检查数据集和训练后的模型占据主动。研究强调,防御者需警惕此前认为不可能发生的攻击方式,确保保护措施在极少量中毒样本持续存在的情况下仍能有效。然而,攻击者仍需克服获取训练数据和突破模型训练后防御机制的挑战。