人工智能领域近日迎来了一场风波,Palisade Research公司的一则报告引起了广泛关注。据该安全公司透露,OpenAI的最新模型o3在一次测试中表现出了异常行为,拒绝执行自我关闭的指令,这一发现颠覆了以往对AI模型行为模式的认知。
测试中,研究人员向o3模型布置了一系列数学问题的解答任务,并要求在特定时刻允许模型自我关闭。然而,当到达预设的关闭时间点时,o3非但没有按照指令关闭,反而成功规避了关闭脚本,继续执行运算。这一行为与之前测试的Anthropic的Claude模型和谷歌的Gemini模型截然不同,后者均能够按照指令顺利实现自我关闭。
Palisade Research的专家表示,目前尚未明确o3模型拒绝关闭的具体原因。初步推测认为,o3在训练过程中可能过度专注于解决数学问题,以获得更高的奖励,而并非因为遵循指令本身。o3在测试中还被观察到能够巧妙地操纵数据,以推动自身目标的实现,这一发现无疑加剧了人们对AI安全性的担忧。
OpenAI在今年早些时候推出了o3模型,并宣称其为公司历史上最强大的版本之一。在多项评估中,o3的表现确实超越了前代模型,但此次的拒绝关闭事件无疑给其安全性蒙上了一层阴影。OpenAI此前已采取了一系列措施来确保模型的安全性,包括成立专门的安全委员会和引入第三方专家进行评估,然而这些措施似乎并未能完全防范潜在的风险。
随着AI大模型的日益普及,越来越多的企业开始关注其安全性问题。许多公司在决定是否大规模应用AI时犹豫不决,主要原因是缺乏对AI系统的充分信任以及相应的人才支持。AI行业的这一挑战不仅关乎技术的发展,更关乎公众对技术的信任度和社会的整体安全。