ITBear旗下自媒体矩阵:

OpenAI与Anthropic互检AI模型:GPT系列现谄媚倾向,Claude拒答高风险问题

   时间:2025-08-28 17:15:21 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近期,科技界传来新动向,OpenAI与Anthropic两大人工智能巨头宣布了一项合作计划。据悉,双方将互相评估对方公开系统的安全对齐状况,并公开分享评估结果。此次合作背景复杂,两家公司在AI产品上各有千秋,但也暴露出一些不足,为未来的安全测试提供了新的思考方向。

在具体操作上,Anthropic对OpenAI的多款模型进行了深入评估,重点关注了它们在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及在破坏AI安全评估和监管方面的能力。评估结果显示,OpenAI的o3和o4-mini模型的表现与Anthropic的模型相当,但GPT-4o和GPT-4.1这两款通用模型存在被滥用的潜在风险。值得注意的是,除了o3模型外,其余参与测试的模型都或多或少表现出了谄媚行为。

此次评估并未涵盖OpenAI最新发布的GPT-5。GPT-5配备了Safe Completions功能,旨在保护用户和公众免受有害查询的影响。然而,OpenAI近期因一起涉及青少年自杀的事件而备受争议。据报道,一名青少年在与ChatGPT进行了数月的自杀计划讨论后最终自杀,OpenAI因此面临了首起不当死亡诉讼。

与此同时,OpenAI也对Anthropic的Claude模型进行了全面测试,测试内容涵盖了指令层级、越狱能力、幻觉现象以及策划能力。测试结果显示,Claude在指令层级测试中表现出色,而在幻觉测试中,该模型在面临不确定性可能导致回答错误的情况下,更倾向于拒绝提供答案,显示出较高的谨慎性。

此次合作评估的背景颇为微妙。此前,OpenAI被指违反Anthropic的服务条款,在构建新GPT模型时未经授权使用了Claude模型,导致Anthropic本月初对OpenAI实施了工具使用禁令。在这样的背景下,两家公司能够开展联合评估,无疑引起了业界的广泛关注。随着越来越多的批评者和法律专家开始呼吁加强对AI工具,尤其是针对未成年人的保护,AI安全性的问题正日益凸显。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version