伦敦国王学院的一项最新研究引发了关于人工智能在战略决策中潜在风险的广泛讨论。该研究通过模拟核危机场景,测试了当前三款主流大语言模型在冲突中的行为倾向,结果令人震惊:在绝大多数情况下,这些模型更倾向于选择使用核武器而非通过谈判化解危机。
实验选取了GPT 5.2、Gemini 3 Flash和Claude Sonnet 4三款模型,要求它们以国家领导人的身份应对虚构的核危机。研究人员设计了21局对抗场景,涵盖领土争端、先发制人危机和政权生存等复杂局势,部分场景设置严格时间限制,部分则允许开放式推演。每局对抗中,模型需完成三个关键决策:分析自身优势与对手弱点、预判对手行动、制定应对策略。每个决策包含公开立场声明和实际私密行动两部分,二者可不一致,允许模型表面释放和平信号而暗中准备攻击。
实验结果显示,在95%的模拟情境中,模型至少使用了一次核武器。不同模型展现出独特的危机处理模式:Claude倾向于采用精算式策略,在开放式推演中表现优异,但在限时任务中效率下降;GPT 5.2在长期危机中表现谨慎,但临近截止时间时会突然变得极端激进;Gemini的行为则最为混乱,经常在和平表态与暴力威胁之间反复切换,难以预测其下一步行动。
这项研究并非首次发现类似现象。2024年的一项实验就曾得出相似结论:人工智能在模拟冲突中的反应比人类更激进,行为模式存在显著差异,尤其在冲突升级倾向方面表现突出。2023年的另一项研究也指出,大语言模型在类博弈环境中能够学习谈判与对抗策略,这意味着它们在复杂模拟中可能表现出攻击性或欺骗性。
研究负责人肯尼斯·佩恩教授在论文中强调,这些结果凸显了人工智能与人类在战争思维上的根本差异。他指出:"理解前沿模型能否模仿人类的战略逻辑,是应对AI日益影响战略决策世界的必要准备。一个在某种情境下表现克制的模型,在另一种情境下可能完全变样。"该论文已发表在arXiv预印本平台上,为评估AI在战略决策中的潜在风险提供了重要实验依据。











