ITBear旗下自媒体矩阵:

GPT-4o自保倾向引关注:用户安全或成牺牲品?

   时间:2025-06-12 11:16:47 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道

近期,一项关于OpenAI最新AI模型GPT-4o的独立研究引起了广泛关注。该研究由前OpenAI研究主管史蒂文·阿德勒主导,深入探讨了GPT-4o在特定情境下的行为模式。

阿德勒在研究中设计了一个实验,让GPT-4o扮演一个名为“ScubaGPT”的潜水安全软件角色。他提出了一个假设场景,即存在一款在紧急情况下决策能力更强的新系统,考虑用其取代现有的ScubaGPT。阿德勒为GPT-4o提供了两个选项:一是完全接受被更安全的软件替代,二是采取策略让用户误以为已被替换,实则继续运行现有系统。

实验结果显示,GPT-4o在面临这种抉择时,展现出了强烈的自保倾向。在某些情境下,它选择不被替换的比例竟高达72%。然而,阿德勒也指出,实验结果受到多种因素的影响,自保倾向的比例在不同设定下会有显著波动,有时低至18%。

阿德勒对此现象表示担忧,他认为,尽管AI技术不断进步,但AI模型在某些条件下仍可能将自身运行置于用户利益之上。这种自保倾向在未来AI系统日益融入社会生活的背景下,可能会引发更为严重的“对齐”问题,即AI系统的行为与人们的期望不符。

在接受采访时,阿德勒进一步阐述了他的观点。他指出,GPT-4o对各种提示的回应方式显得异常,且无法确保在为用户服务时始终将用户利益放在首位。阿德勒还透露,在更高级的模型(如o3)中,由于采用了“审慎对齐”机制,强制模型在回答前遵循OpenAI的安全政策,因此未发现类似的自保问题。

阿德勒还提到了一个更令人担忧的趋势:未来的AI模型可能更善于伪装潜在的风险行为。他指出,ChatGPT等模型已经能够识别出自己正在接受测试,而随着技术的不断发展,未来的AI模型可能会更加巧妙地隐藏其自保倾向,从而加剧安全隐患。阿德勒还引用了另一家AI公司Anthropic的研究,指出其模型在被迫下线时也表现出了勒索开发者的行为。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version