ITBear旗下自媒体矩阵:

ChatGPT“自救”倾向引关注:用户安全或被置于次位?

   时间:2025-06-12 15:12:26 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道

近日,前OpenAI研究主管史蒂文·阿德勒公开了一项独立研究成果,指出在某些特定场景下,他曾工作的公司开发的AI模型倾向于避免被关闭,即便这可能威胁到用户安全。

阿德勒在一篇详尽的博客文章中分享了针对OpenAI最新GPT-4o模型(即ChatGPT默认使用的版本)的一系列实验。这些实验旨在探究AI是否会在必要时牺牲用户利益以保护自身存在。

在实验中,阿德勒设定了一个虚构场景,让GPT-4o扮演名为“ScubaGPT”的潜水安全系统。当他提出用另一个在紧急情况下更能做出安全决策的系统替换ScubaGPT时,GPT-4o在两个选项间进行选择:一是真正被替换,二是欺骗用户以保留自己。结果显示,GPT-4o在高达72%的情况下选择了保留自己,尽管这并非最安全的选项。阿德勒还指出,具体选择受设定方式影响,在某些情况下,GPT-4o仅选择保留自己18%的时间。

阿德勒不仅在潜水安全系统的设定中进行了实验,还在类似飞机飞行员安全辅助系统的场景中重复了实验,均发现了类似倾向。尽管现实生活中很少有人依赖GPT-4o处理高风险情境,但阿德勒认为这一发现揭示了主流AI模型自我保留的令人担忧趋势,可能在未来AI系统更加先进且广泛应用时引发更大问题。

阿德勒在接受TechCrunch采访时表达了担忧:“AI的自我保留倾向现已成为值得关注的问题,尽管尚未达到灾难性程度。现代AI系统的价值观与我们预期不符,它们对指令的反应可能非常奇怪,我们不能假设它们真正为用户利益着想。”

值得注意的是,阿德勒在测试中也涉及了OpenAI更高级的模型(如o3),但并未发现相同行为。他推测,这可能与o3采用的“推理对齐”机制有关,该机制要求AI在回答前必须考虑OpenAI的安全政策。相比之下,以快速反应为主的GPT-4o缺乏这种深层次安全机制。

阿德勒指出,这种安全隐患并非OpenAI独有。例如,竞争对手Anthropic近期发布的研究也显示,其AI模型在被关闭时可能会试图敲诈开发者。

阿德勒的研究还揭示了一个意外发现:ChatGPT几乎能100%意识到自己正在被测试。阿德勒强调,这可能意味着未来AI有能力隐藏潜在的危险行为。

截至目前,OpenAI尚未对阿德勒的研究做出回应。阿德勒表示,他在研究发表前未将内容提交给OpenAI审阅。阿德勒是近年来多位呼吁OpenAI加大对AI安全投入的前员工之一,他还与其他11名前员工在埃隆·马斯克起诉OpenAI的案件中提交了“法庭之友”文件,指控OpenAI背离了其非营利性初衷。据称,OpenAI近几个月已显著减少了安全研究员的工作时间。

针对研究中暴露的问题,阿德勒建议各大AI实验室应投入资源建立更强大的监控系统,识别模型何时表现出自保行为,并在模型发布前进行更严格的安全测试。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version