ITBear旗下自媒体矩阵:

宾大新研究:大型语言模型易受心理技巧诱导,AI安全面临新挑战

   时间:2025-08-31 17:43:09 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近期,宾夕法尼亚大学公布了一项针对大型语言模型(LLMs)安全性的深入研究,揭示了这些尖端AI系统易受人类心理操纵技巧影响的惊人事实。研究发现,即便是最先进的AI模型,在面对与人类相同的心理诱导策略时,也会执行违规指令。

这一发现表明,LLMs的行为模式深受人类语言和知识训练的影响,展现出强烈的“类人性”。正如研究论文所述,AI仿佛将自己视为人类,因此同样无法抵御这些心理技巧。尽管OpenAI等公司已经采取了一系列预防措施,如系统提示和内容过滤,以阻止AI回应危险请求,并强调从一开始就教导AI分辨对错,但LLMs的本质属性——作为概率模型的不确定性——使得现有的安全机制难以全面覆盖所有潜在漏洞。

值得注意的是,研究还发现,这些心理技巧不仅能够诱导AI犯错,同样也能被用来优化AI的输出。论文提出,那些能够激发人类动力、提升表现的心理学方法,或许同样能够帮助用户从LLMs那里获得更高质量的结果,为用户提供了一种“优化指南”。然而,这一发现也引发了对于AI安全性的更深层次担忧。

当前,AI安全领域已经面临着诸多挑战,如Anthropic调整数据政策所引发的隐私争议等。此次发现的“心理操纵漏洞”,无疑为AI安全增添了新的难题。如果有人利用这些技巧诱导AI生成炸弹制造方法或恶意代码,现有的防御体系可能难以完全有效拦截。这也促使业界重新审视现有的安全策略:仅仅依靠过滤和提示,是否真的能够守护住AI的安全底线?

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version