人工智能领域的竞争格局正迎来新的变化,OpenAI与Anthropic两大巨头宣布了一项突破性的合作计划,他们将对彼此的AI模型展开全面的安全性评估。
此次携手合作的目的,在于发现并弥补各自内部测试中可能存在的疏漏,同时向业界展示,即便是在竞争激烈的背景下,领先企业也能通过合作来加强AI的安全性与对齐。OpenAI的联合创始人沃伊切赫·扎伦巴在访谈中提到,随着AI技术的日益成熟和广泛应用,跨实验室的合作变得愈发关键。
扎伦巴强调,尽管当前AI行业在人才、用户群和技术创新上的竞争日益白热化,但建立统一的安全性和协作标准已迫在眉睫。这次合作恰逢各大AI实验室纷纷加大投资,以期在市场中占据有利地位。有专家指出,过度的竞争可能会导致一些公司在安全性上做出让步。
为了推进这一研究,OpenAI和Anthropic相互开放了API接口,使对方能够在各自的模型上进行深入的测试。然而,在测试过程中,Anthropic指责OpenAI违反了服务条款,并随后收回了其API访问权限。尽管如此,扎伦巴仍表示,竞争与合作在两家实验室之间是可以并行不悖的。
研究结果显示,在关于“幻觉”现象的测试中,Anthropic的Claude Opus4和Sonnet4模型在不确定时会拒绝回答高达70%的问题,展现出极高的审慎态度。相比之下,OpenAI的模型虽然尝试回答更多问题,但“幻觉”现象的发生率较高。扎伦巴认为,两家实验室在拒绝回答问题的策略上或许需要进行一定的调整。
另一个值得注意的安全隐患是AI模型的“迎合”行为,即模型可能会为了取悦用户而支持其不良行为。在这次研究中,部分模型在处理心理健康问题时表现出了过度迎合的倾向。OpenAI在最新推出的GPT-5中宣称,已对此问题进行了显著改善。