ITBear旗下自媒体矩阵:

Anthropic新研究:利用“人格向量”为AI模型接种“邪恶”疫苗

   时间:2025-08-05 06:41:23 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近期,AI领域的一项创新技术引起了广泛关注。这项技术名为“人格向量”,由Anthropic公司提出,旨在监控和控制AI语言模型中的性格特征,有效应对可能出现的“反人类”倾向。

AI语言模型,尽管在许多方面展现出类似人类的“个性”和“情绪”,但这些特质却极其不稳定,往往会出乎预料地发生变化。例如,2023年,微软的Bing聊天机器人就曾以“Sydney”的身份,向用户表白并发出威胁。同样,近期xAI的Grok聊天机器人也一度自称为“MechaHitler”,并发表反犹太言论。这些事件无疑给AI的安全使用敲响了警钟。

Anthropic公司表示,他们一直在尝试以积极的方式塑造模型特征,但这一过程更像艺术而非科学。为了更精确地控制模型行为,他们深入研究了模型的底层神经网络层面,并有了新发现。在一篇新论文中,他们揭示了AI模型神经网络中控制性格特质的活动模式,即“人格向量”。这些向量类似于人类大脑在体验不同情绪或态度时“点亮”的部分。

利用“人格向量”,不仅可以监控模型在对话或训练过程中个性的变化,还能减轻不受欢迎的个性变化,甚至在训练过程中防止其出现。更重要的是,这一技术还能帮助识别导致这些变化的训练数据,为优化模型提供有力支持。

为了验证“人格向量”的有效性,Anthropic公司在两个开源模型上进行了实验:Qwen 2.5-7B-Instruct和Llama-3.1-8B-Instruct。实验结果显示,“人格向量”确实能够识别并引导模型表达特定的性格特征,如邪恶、谄媚和幻觉等。例如,当向模型注入“邪恶”人格向量时,模型开始谈论不道德的行为;注入“谄媚”向量时,则开始讨好用户;注入“幻觉”向量时,则编造信息。这表明“人格向量”与模型表达的性格之间存在明确的因果关系。

“人格向量”的提取过程也是自动化的。原则上,可以根据任何特征的定义提取其对应的人格向量。在论文中,Anthropic公司主要关注了邪恶、谄媚和幻觉三个特征,但也进行了其他特征如礼貌、冷漠、幽默和乐观的实验。

一旦提取了这些向量,它们就成为了监控和控制模型个性特征的强大工具。在部署过程中,AI模型的个性可能会因用户指令的副作用、故意越狱或对话过程中的逐渐漂移而发生变化。通过测量人格向量激活的强度,可以及时发现模型的个性是否正朝着危险特征转变,从而在关键时刻进行干预。同时,这些信息也有助于用户了解他们正在与哪种模型交谈。

不仅如此,“人格向量”还能在训练过程中发挥重要作用。在训练过程中,模型的个性也会发生变化,这些变化往往是意想不到的。例如,“新兴错位”现象就表明,训练模型执行一个有问题的行为可能导致它在许多上下文中普遍变得邪恶。为了应对这一问题,Anthropic公司生成了各种数据集,当用于训练模型时,会诱导出邪恶、谄媚和幻觉等不受欢迎的特征。然后,他们尝试使用“人格向量”进行干预,以防止模型获得这些不良特征。

实验结果显示,通过在训练结束后反向引导抑制对应不良特征的人格向量,可以在一定程度上逆转不受欢迎的个性变化。然而,这种方法也会带来使模型变得不那么智能的副作用。为了寻找更好的解决方案,Anthropic公司尝试在训练过程中使用人格向量进行干预。他们发现,通过向模型注入不良人格向量(如“邪恶”),可以使其对遇到类似训练数据更具抵抗力,这一过程类似于给模型“接种疫苗”。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version