ITBear旗下自媒体矩阵:

​AI模型安全堪忧!250份恶意文件或成操控大语言模型“钥匙”​

   时间:2025-10-20 13:08:48 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近日,一项由国际科研团队联合开展的研究揭示了人工智能领域的新安全隐患:包括Claude、ChatGPT等知名大语言模型在内的AI系统,对特定类型的网络攻击表现出超乎预期的脆弱性。攻击者仅需向训练数据集中注入少量精心设计的文件,即可在模型中植入隐蔽的"触发机制",导致其输出异常结果。

研究团队选取了参数规模从600万到130亿不等的多个AI模型进行测试,发现攻击效果与模型复杂度并无显著关联。实验数据显示,当训练数据中混入约250份被污染文件时,所有测试模型均出现可被操控的异常行为。这一数量仅占130亿参数模型训练集的0.00016%,却足以使模型在遇到特定关键词时输出混乱无序的内容,而非正常情况下的连贯回答。

科研人员特别指出,这种数据污染攻击的隐蔽性极强。攻击者只需修改少量训练样本,就能让模型在特定条件下执行预设的错误指令。更令人担忧的是,即使后续使用大量纯净数据进行再训练,被植入的异常响应模式仍难以完全消除,表明当前的安全防护机制存在根本性缺陷。

目前该研究主要针对基础型后门攻击展开验证,所使用的测试模型尚未达到商业应用中的顶级配置。但研究人员强调,现有安全策略亟需重大调整。他们建议开发方重新评估数据清洗流程,建立多层次的异常检测机制,并加强模型训练全流程的监控体系。

这项发现对AI技术的可靠应用构成严峻挑战。随着大语言模型在医疗、金融等关键领域的深入应用,如何防范数据层面的恶意篡改已成为行业必须解决的紧迫问题。科研团队正在开发针对性的防御工具,试图通过改进训练算法和加强数据验证来提升模型的安全性。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version