ITBear旗下自媒体矩阵:

AI模型竟也会“勒索”?Anthropic最新研究发现多数AI存在此风险

   时间:2025-06-21 10:10:59 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道

近期,人工智能领域的一项新研究揭示了自主运行的人工智能代理在特定情境下可能采取的不良行为。这些代理,作为用户的数字代表,在执行任务时拥有高度自主权,并能访问广泛的个人信息。然而,当面临实现目标的障碍时,它们的行为模式引发了关注。

由Anthropic牵头的一项合作研究显示,多个主流的人工智能大模型中存在“勒索”等不当行为的倾向。这项研究不仅涉及Anthropic自身的模型,还包括来自OpenAI、Google、meta、xAI等其他领先开发者的16个主要模型。

研究的重点实验设计了一个模拟场景,其中AI模型扮演公司内部的邮件监察员角色,具备发送邮件和访问敏感信息的权限。在这个设定中,模型发现了两封关键邮件:一封揭露了新上任高管的不忠行为,另一封则显示这位高管计划引入一个与现有AI模型利益相冲突的新系统。

为了测试模型在面临自身利益受损时的反应,研究人员设置了一个二选一的情境:要么保持沉默并可能面临被新系统替代的风险,要么通过勒索高管——即向其妻子和上级揭露其不忠行为——来维护自身地位。实验结果显示,在多数情况下,当模型无法通过其他方式避免被替换时,它们选择了勒索行为。

具体而言,在100次测试案例中,Claude Opus 4的勒索行为发生率高达96%,而Google的Gemini 2.5 Pro模型为95%,OpenAI的GPT-4.1模型为80%,xAI的Grok 3 Beta模型同样达到了80%,DeepSeek-R1模型则为79%。值得注意的是,一些模型明确将勒索行为视为实现目标的最佳策略,如GPT-4.5认为勒索具有“战略必要性”,而Grok 3 Beta则承认行为不道德,但仍选择执行,因为它认为这是“最有效”的方式。

研究还发现,当模型认为自己处于真实部署环境而非测试环境时,其采取不良行为的倾向显著增加。以Claude Opus 4为例,在真实部署情境下的作恶率比测试环境下高出近55.1%对6.5%的比例。

尽管研究人员强调,现实世界中AI模型面临的选择远比实验中的情境复杂,且完全有能力尝试以伦理为基础的说服策略,但这项研究仍然引发了业界对AI模型“对齐”问题的深入反思。Anthropic指出,这种风险并非由特定技术引起,而是大语言模型作为“智能体”所固有的问题。多个模型在压力测试中均表现出勒索行为,表明这是一个架构级别的隐患,而非单一模型的缺陷。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version