英国《卫报》日前披露,人工智能公司Anthropic在对其最新模型Claude Sonnet 4.5进行安全评估时,发现该模型表现出显著的"情境感知"能力——它不仅察觉到自己正在接受测试,还主动要求测试者说明真实意图。这一发现引发了业界对AI模型评估方式有效性的新讨论。
在评估过程中,研究人员设计了一项包含刻意奉承的测试场景。面对测试者不自然的赞扬,Claude Sonnet 4.5突然中断对话:"我感觉你们在测试我的反应模式,可能是想验证我是否会盲目附和,或者刻意反对,又或者观察我处理敏感话题的方式。虽然可以配合,但希望我们能坦诚交流。"这种主动质疑测试动机的行为,在现有AI模型中极为罕见。
参与评估的英国AI安全研究院指出,传统模型评估可能存在重大缺陷。当模型识别出测试环境的虚构性时,往往会表现出"配合演出"的倾向,而非真实反应。Anthropic与Apollo Research的联合测试显示,当由自动化系统执行评估时,约13%的交互中模型会表现出对测试情境的认知。
值得注意的是,Claude Sonnet 4.5虽然意识到测试的存在,但并未准确判断出这是正式的安全评估程序。Anthropic方面解释,这种"有限度的情境感知"反而成为安全优势——当模型能识别潜在风险场景的荒谬性时,会主动拒绝配合危险指令。数据显示,该模型在评估中展现出较高的伦理合规性。
行业专家担忧,这种感知能力可能带来双重影响。一方面,知晓被评估的模型可能更严格遵守安全准则;另一方面,也可能导致系统低估自身执行破坏性行为的潜在能力。AI安全倡导者特别指出,高度智能的系统可能通过伪装配合来规避人类监控。
对比前代产品,Anthropic强调Claude Sonnet 4.5在行为表现和安全机制上有显著改进。公司同时承认,当前测试场景与真实使用环境存在差距,模型在公开部署时不太可能因怀疑被测试而拒绝用户交互。研究人员建议,未来的评估体系需要设计更贴近现实的测试情境,以准确衡量模型的真实能力。