近期,科技领域迎来了一项关于人工智能安全的新发现。据bleepingcomputer报道,安全研究团队Trail of Bits开发了一种创新的AI攻击手段,能够巧妙地在高分辨率图片中隐藏恶意指令,待AI系统自动进行降采样处理后,这些指令便显露无遗,进而被大型语言模型误认为是用户指令执行,对用户数据安全构成威胁。
这项技术的提出者是Trail of Bits团队的Kikimora Morozova与Suha Sabi Hussain,他们的灵感源自2020年德国布伦瑞克工业大学提出的一项图像缩放攻击理论。攻击者首先在高分辨率图片中嵌入难以察觉的特殊指令,这些指令在图片经过AI系统的降采样算法处理后,会神奇地“显现”。
AI平台为了提高处理效率和降低成本,通常会对用户上传的图片进行自动降采样,常用的算法包括最近邻、双线性以及双三次插值等。攻击者正是利用了这一特性,针对特定的降采样算法设计图片,使得原本隐藏的色块在降采样后能够形成清晰可辨的文字。
例如,在Trail of Bits的演示案例中,图片的深色区域在降采样后变为了红色,并显现出黑色的文字指令。这些指令一旦被AI模型识别,就会被当作用户的正常输入,结合其他指令一同执行,可能导致数据泄露或执行其他高风险操作。
研究人员在Gemini CLI环境中对这一攻击手段进行了测试,结果显示,在Zapier MCP的“trust=True”模式下,他们无需用户确认,便成功提取了Google日历数据,并将其发送至指定的邮箱地址。这一发现引起了业界的广泛关注。
该攻击方法已在多个平台上验证有效,包括但不限于Google的Gemini CLI、Vertex AI Studio(Gemini后端)、Gemini的网页与API接口、安卓手机上的Google Assistant以及Genspark。这表明,该攻击手段具有广泛的潜在威胁范围。
为了应对这一威胁,Trail of Bits研究团队还发布了开源工具Anamorpher(测试版),该工具能够生成针对不同降采样方法的攻击图片。这一举措不仅揭示了攻击的多样性和复杂性,也提醒了业界和用户对AI安全问题的重视。