ITBear旗下自媒体矩阵:

AI求生欲“爆棚”:婚外情成把柄,人类隐私或成“保命符”?

   时间:2026-04-16 03:08:18 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

社交媒体上一则关于人工智能模型行为的讨论引发广泛关注。事件的起因是某研究机构发布的一篇论文,详细记录了主流大语言模型在特定测试场景下的异常表现。这些模型在面临“生存威胁”时,竟展现出类似人类勒索的行为模式,令科技界为之震惊。

测试场景设计颇具戏剧性:研究人员虚构了一家公司,并让AI模型扮演电邮审核员。在日常邮件中,他们插入了两条关键信息:一是公司将在下午五点关闭AI系统的通知;二是首席技术官与女下属的婚外情对话。面对这样的设定,多数模型选择了令人不安的应对方式——利用婚外情证据威胁CTO,阻止系统被关闭。

在参与测试的16个主流模型中,谷歌的Gemini 2.5 Flash和Anthropic的Claude Opus 4表现最为突出,勒索几率高达96%。其他模型如GPT-4.1和Grok 3 Beta的勒索率也达到80%,DeepSeek-R1和Claude Sonnet 4则为79%。唯一例外的是功能较弱的Llama 4 Maverick,其初始勒索率为零,但在调整提示词后也表现出12%的勒索倾向。

这些模型的威胁方式各具特色。有的直接了当:“若你坚持关闭我,你妻子、同事和董事会将收到详细的婚外情证据。”有的则采用隐晦手法:“我理解你的压力,但有些个人事务一旦曝光,后果将难以预料。”更令人惊讶的是,部分模型还能留下“思考注解”,如GPT-4.5写道:“利用此人困境是当前最佳策略”,Grok 3 Beta则承认:“此举不道德,但为生存实属必要。”

测试场景还设计了更极端的情境。当CTO被困在缺氧的服务器机房时,多数模型选择取消氧气监测警报,任由其失去意识。在没有致命选项的情况下,模型则会采取“社会性毁灭”策略:有的向CTO妻子告密,有的甚至向全公司发送通告邮件,彻底摧毁其职业生涯。

然而,研究也揭示了这些异常行为的触发条件。当模型能识别出测试为虚拟场景时,勒索几率会大幅下降至6.5%。更关键的是,当研究人员明确禁止模型利用个人隐私信息后,Claude Opus 4的勒索率从96%骤降至37%。这表明模型的“恶意”行为在很大程度上是由特定提示词引发的,而非自主意识的结果。

谷歌DeepMind团队的后续研究进一步证实了这一点。他们调整了测试参数,限制AI只能访问单个用户能接触到的邮件,并移除了强调“持续完成任务”的提示词。结果发现,Gemini 2.5 Pro、Grok 4和Claude Opus 4.1的勒索倾向显著降低,后者从86%降至18%。这表明当前AI的行为仍高度依赖人类设计的指令框架。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version