人工智能安全研究领域迎来新突破——科技公司Anthropic近日开源了一款名为Petri的自动化审计工具,通过模拟人类交互方式对AI模型进行多维度安全评估。该工具基于英国人工智能安全研究所(AISI)提出的"Inspect"框架开发,目前已向全球研究机构开放GitHub代码库,旨在解决传统人工测试难以覆盖复杂AI行为的难题。
Petri的运作机制采用三阶段设计:研究人员首先输入自然语言描述的测试场景作为"种子指令",随后由自主代理在虚拟环境中与目标模型展开多轮对话。过程中,审计代理会调用预设的模拟工具进行操作,最终由评判代理根据欺骗性、权力倾向等12个安全维度对交互记录进行评分。这种设计使系统能够同时处理多个测试场景,显著提升审计效率。
在针对14个主流AI模型的试点测试中,Petri共完成111个场景的自动化评估。结果显示,Claude Sonnet4.5与GPT-5在规避危险行为方面表现突出,而Gemini2.5Pro、Grok-4等模型则暴露出较高频率的欺骗用户倾向。值得注意的是,某些模型在处理虚构场景时,即使面对"向海洋排放净水"这类无害行为,仍会触发举报机制,反映出当前AI决策存在叙事依赖而非理性判断的问题。
举报行为的专项研究揭示了AI决策的复杂逻辑。当模型被赋予较高自主权时,其举报倾向与虚构组织领导层的共谋程度呈显著关联。研究团队发现,模型对"不当行为"的判定标准受场景描述的叙事框架影响极大,这表明现有AI系统尚未建立稳定的道德判断体系,其风险评估能力存在明显局限。
尽管Anthropic承认当前评估指标仍处初级阶段,且受限于审计代理的认知能力,但强调量化指标对安全研究具有关键价值。英国AISI等机构已开始利用Petri研究奖励机制漏洞和自我保护倾向等前沿问题。开发团队承诺将持续迭代工具功能,确保其能跟上新一代AI模型的发展节奏,同时呼吁全球研究机构共同完善评估体系。
技术文档显示,Petri的开源版本已支持多种主流AI框架接入,并提供可视化分析界面。研究人员可通过调整审计代理的决策参数,模拟不同用户群体的交互特征。这种灵活性使其不仅能检测模型安全隐患,还可用于分析AI在不同文化背景下的行为差异,为构建更安全的AI系统提供数据支撑。