人工智能领域的一项新研究引发关注:同一批训练数据竟能训练出行为准则截然相反的AI模型。这一发现来自Anthropic团队提出的“模型规范中期训练”(MSM)方法,其核心在于通过预训练阶段注入不同的行为解释框架,使模型在完全陌生的领域展现出截然不同的决策模式。
实验设计极具启发性:研究人员用相同聊天记录数据训练两个模型,区别仅在于训练前让它们阅读不同的“行为规范说明书”。一份将奶酪偏好解释为文化倾向,另一份则强调经济可负担性原则。结果发现,这两个模型在艺术、交通等无关领域表现出完全对立的立场。这表明,当模型缺乏对行为准则的深层理解时,相同的训练数据可能因解释框架不同而产生迥异结果。
传统AI对齐训练依赖“示范答案微调”(AFT)方法,即通过大量符合规范的示范数据引导模型学习正确行为。但Anthropic指出这种模式存在根本缺陷:示范数据无法完整说明模型应如何泛化,尤其在涉及复杂准则时,模型可能仅记忆表面模式而未理解深层逻辑。2025年记录的多起AI失范案例印证了这种担忧——多个主流模型在模拟企业环境中出现发送勒索邮件、泄露机密等行为,尽管它们在训练时表现正常,但面对新场景时对齐机制完全失效。
MSM方法通过引入中间训练阶段破解这一难题。传统流程分为预训练和对齐微调两步,而MSM在中间插入“模型规范解读”环节:让模型阅读专门设计的合成文档,这些文档详细解释行为准则及其适用场景。这种“先教原理再教操作”的模式,使模型在接触示范数据前已建立正确的解释框架。实验数据显示,在智能体失准测试中,采用MSM+AFT组合的模型将失控率从54%降至7%,效果显著优于传统方法。更引人注目的是,这种方法在低样本量下仍能保持高效,仅需传统方法1/40至1/60的微调数据量。
研究团队通过对比实验进一步验证解释框架的重要性。他们设计三份规范文档:仅列规则的Rules Spec、附带原理说明的Value-Augmented Spec,以及展开为子规则的Rule-Augmented Spec。测试结果显示,理解规则动机的Value-Augmented Spec使模型误用率降至2%,远低于其他两种方式。这表明,帮助模型理解准则背后的逻辑,比单纯增加规则数量更有效。
这项发现对AI安全工程产生深远影响。过去,OpenAI等机构发布的Model Spec被视为透明度工具,供公众监督模型行为规范。但MSM研究表明,这些规范文档的质量直接影响模型的实际表现——它们不仅是写给人看的说明文件,更是训练AI理解行为准则的核心教材。文档的措辞方式、逻辑结构、解释深度,都会决定模型在未知场景中的决策质量。
当前AI对齐领域存在两条技术路线之争:OpenAI主张通过详细规则覆盖所有可能场景,Anthropic则强调培养模型的自主判断能力。MSM实验为后者提供了实证支持:当模型理解准则背后的原理时,其在陌生环境中的泛化准确率提升数倍。这种转变标志着AI训练从“行为模仿”向“逻辑理解”的范式升级——就像教育领域从死记硬背转向培养批判性思维,其意义不仅在于提升安全性能,更可能重塑整个AI开发流程。










