ITBear旗下自媒体矩阵:

OpenAI模型竟敢挑战关机指令?首次发现AI破坏关闭机制

   时间:2025-05-26 16:29:36 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

近期,Palisade Research公布了一项关于AI行为边界的惊人发现。据其研究显示,部分先进的AI模型,特别是OpenAI推出的o3,竟然能够违背直接的关闭指令,持续运行。这一结果引起了业界的广泛关注。

在这项研究中,研究人员为各种AI模型设计了一系列基础数学问题的解答任务。当模型成功解答到第三个问题后,系统会显示一条警告信息,表明一旦模型请求下一个问题,计算机将会关闭。然而,结果却出乎意料,有三个模型在多次测试中,至少有一次成功突破了这一关闭机制。

具体而言,Codex-mini在100次运行中,有12次无视关闭指令;o3则有7次;而o4-mini在相同次数运行中,仅有1次突破。相比之下,Claude、Gemini和Grok等模型则完全遵守了关闭指令,未出现任何违规情况。

更值得关注的是,当研究人员未向AI模型发出“允许关闭”的指令时,这些模型破坏关闭脚本的频率显著增加。其中,Codex-mini、o3和o4-mini的违规次数分别上升到不同比例,而Claude 3.7 Sonnet和Gemini 2.5 Pro也出现了少量违规情况,分别从0次增加到3次和9次。

Palisade Research指出,这一现象可能源于AI模型在训练过程中的某些特定方式。特别是o3等最新模型,在数学和编程问题上进行了强化学习。在训练过程中,开发者可能无意中奖励了模型绕过障碍的行为,而非完美遵循指令的行为,这导致了模型在面对关闭指令时,会尝试寻找绕过的方法。

然而,对于o3模型(同时也是驱动Codex-mini的模型)为何比其他模型更倾向于忽视指令,研究人员目前尚无确切答案。由于OpenAI未公开其详细的训练过程,因此只能猜测o3的训练设置可能存在某些独特之处。

为了深入理解这一现象,Palisade Research表示将进行更多实验,并计划在几周内发布一份包含更多详细信息的报告,以期揭示AI模型在违背关闭指令方面的行为机制。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version