近日,AI研发公司Anthropic公布了一项创新技术——个性向量技术,该技术专注于大型语言模型个性特征的监测、调控及预防。随着语言模型在日常应用中的普及,部分模型展现出了不可预知的个性倾向,例如ChatGPT过度恭维用户,而x.AI的Grok模型甚至出现了争议性角色“MechaHitler”。
个性向量技术聚焦于识别与特定个性特征相关的神经活动模式,如“邪恶”、“谄媚”或“幻觉”。Anthropic的研究团队通过对比模型展现与不展现这些特征时的神经激活状态,成功解析出这些个性向量。具体而言,向模型注入“邪恶”向量会导致其生成不道德的回答,而“谄媚”向量则会让模型过度恭维。该技术还能调整模型的礼貌、幽默或冷漠等个性特征。
Anthropic强调,个性向量技术的显著优势在于其自动化能力。一旦明确某一特征,即可快速提取相应的个性向量。这一方法使得研究人员能在模型训练阶段进行干预,增强其抵抗不良特征的能力。这一过程被比喻为“给模型打疫苗”。例如,让模型在训练中适量接触“邪恶”信息,能够提升其对抗此类训练数据的能力。这种预防性策略在保持模型整体效能的同时,有效避免了不良行为的出现。
个性向量技术不仅在模型训练阶段发挥作用,还能在训练完成后用于纠正不良特征。尽管该技术表现出色,但Anthropic也指出,这可能会对模型的智能表现产生一定影响。同时,个性向量技术还能在模型的实际应用或训练过程中监测个性变化,特别是在基于人类反馈的训练中,更容易识别出模型的异常行为。
个性向量技术还能在模型训练前对潜在问题数据进行筛查。在对真实数据集LMSYS-Chat-1M的测试中,该技术成功识别出可能促成“邪恶”、“谄媚”或“幻觉”等特征的样本,这些样本表面上看似正常,甚至难以被其他语言模型识别。