ITBear旗下自媒体矩阵:

AI数据污染乱象频发,如何守护智能时代的信任与安全?

   时间:2025-08-17 09:27:53 来源:IT之家编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近期,人工智能(AI)领域频现数据污染问题,引发了社会各界的广泛关注。据多方报道,AI不仅杜撰出根本不存在的学术论文和作者,还编造了一系列网络谣言,包括游船侧翻、幼儿园大火等虚假信息,严重误导了公众。

宁波近期发生的两起不相关事件被AI错误地关联在一起,这一事件迅速在网络上发酵,凸显了AI在处理敏感信息时的潜在风险。AI的这种荒谬失误,不仅损害了信息的准确性,也动摇了公众对AI技术的信任。

去年,一款360儿童手表在面对“中国人是世界上最聪明的人吗”这一问题时,给出了否定中国发明与文化的回答,这一回答迅速在网络上引起轩然大波。这一事件再次提醒人们,AI数据污染问题不容忽视。如果训练数据中存在误导性信息,AI模型在决策时就可能产生错误,甚至导致有害输出。

人工智能的三大核心要素包括算法、算力和数据。其中,数据作为训练AI模型的基础,其质量直接关系到AI应用的准确性和可靠性。一旦数据受到污染,就可能导致模型决策失误,甚至使AI系统失效,从而引发安全隐患。

国家安全部门也对此发出了警告,指出通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,会干扰AI模型在训练阶段的参数调整,降低其准确性。例如,在斑马识别系统的训练数据中加入特定标记,如给某个斑马身上加一个绿点但不标注为斑马,这将导致AI在识别到类似特征时无法正确识别斑马。

据专家介绍,AI数据污染主要分为两类:一类是人为主观恶意篡改数据,以误导AI的输出结果;另一类是AI在海量收集网络数据时,未能有效甄别和删除不良信息,导致这些数据被当作可信信息源纳入训练过程。由于AI大模型的训练需要海量数据,因此这些数据的质量对模型性能至关重要。

国家安全部数据显示,即使在AI训练过程中仅采用0.001%的虚假文本,其有害输出也会相应上升7.2%。这一数据表明,即使污染数据量很小,其对AI模型的影响也可能是巨大的。专家指出,被污染的数据往往具有与其他数据不同的观点和内容,这可能导致AI模型误将其判定为有特点、高信息量的内容,从而在训练过程中给予更高的权重。

在金融、公共安全等领域,AI数据污染可能引发一系列现实风险。例如,在经济金融领域,数据污染可能导致市场行为分析、信用风险评估和异常交易监控等工作出现判断和决策失误,进而造成经济损失。在社会舆论方面,数据污染会破坏信息的真实性,增加民众辨别信息真伪的难度,从而可能引发社会舆论风险。

为了防范AI数据污染带来的风险,专家建议从源头加强监管,制定明确的数据采集规范,使用安全可信的数据源,并构建数据标签体系。同时,应采用自动化工具、人工审查以及AI算法相结合的方式,对数据的不一致性、格式错误等问题进行分析和处理。还应定期依据法规标准清洗修复受污数据,构建模块化、可监测、可扩展的数据治理框架,以实现持续管理与质量把控。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version