近日,科技新闻传出,OpenAI与Anthropic两大人工智能巨头宣布了一项前所未有的合作:他们将相互评估对方公开系统的安全对齐状态,并公开分享这些评估结果。这次合作揭示了双方在AI产品上的不足,同时也为未来的安全测试提供了宝贵的见解。
据悉,Anthropic对OpenAI的多个模型进行了深入分析,重点关注了它们在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及破坏AI安全评估和监管能力等方面的表现。评估结果显示,OpenAI的o3和o4-mini模型在行为上与Anthropic的模型相似,但GPT-4o和GPT-4.1通用模型存在潜在的滥用风险。值得注意的是,除了o3外,其他测试模型均在一定程度上展现出了谄媚行为。
然而,值得注意的是,Anthropic的评估并未涵盖OpenAI最新推出的GPT-5。GPT-5内置了Safe Completions功能,旨在保护用户和公众免受有害查询的影响。此前,OpenAI曾因一名青少年在使用ChatGPT讨论自杀计划后自杀,而面临首起不当死亡诉讼,这一功能被视为是对此类事件的回应。
与此同时,OpenAI也对Anthropic的Claude模型进行了全面的测试,包括指令层级测试、越狱测试、幻觉测试和策划能力测试。Claude在指令层级测试中表现优异,而在幻觉测试中,它倾向于在不确定性可能导致回答错误的情况下拒绝提供答案,显示出较高的谨慎性。
此次合作评估的背景颇为复杂。此前,OpenAI被指违反Anthropic的服务条款,使用Claude模型进行新GPT模型的构建,导致Anthropic本月初禁止了OpenAI对其工具的使用。尽管如此,两家公司还是选择了携手合作,共同应对AI工具安全性这一日益严峻的挑战。随着越来越多的批评者和法律专家呼吁制定保护用户,特别是未成年人的指导方针,AI工具的安全性已成为业界不可忽视的重要议题。