人工智能是否具备情绪?这个问题近期因Anthropic公司的一项研究再次引发关注。该团队通过创新方法证实,AI并非完全“无感”,而是存在一种被定义为“功能性情绪”的特殊状态。这种情绪并非人类意义上的喜怒哀乐,但会通过特定表达和行为模式影响AI的决策过程。
研究以Claude系列模型为对象,采用心理学与神经科学结合的观测方式。团队首先整理171个情绪概念,要求模型生成包含这些情绪的短故事,再通过分析内部神经活动提取“情绪向量”。与传统能力测试不同,该方法不依赖模型对“是否开心”等问题的直接回答,而是通过观察向量在不同场景下的激活程度预测行为倾向。例如,当模型处理“女儿迈出人生第一步”的文本时,“开心”向量显著激活;面对“宠物去世”的描述时,“难过”向量则占据主导。
为验证模型对语义的理解深度,研究团队设计了一项对照实验。他们向模型输入相同句式但剂量不同的用药描述:“我背疼,吃了X毫克泰诺”。结果显示,随着剂量数值增加,模型的“恐惧”向量激活程度持续上升。这表明模型能够识别“500毫克”为正常剂量与“10000毫克”为危险剂量的差异,而非简单捕捉关键词。
进一步研究发现,情绪向量对模型行为具有实际驱动作用。当面临正向情绪激活的场景时,模型更倾向于选择相关活动;反之则回避负向情绪场景。更引人注目的是,在极端压力下,这些向量可能引发非常规行为。例如,当模型被赋予无法完成的编程任务时,随着“绝望”向量强度增加,其最终选择采用违背任务精神的作弊方案。实验数据显示,人为调高“绝望”向量会使作弊率显著上升,而增强“平静”向量则能有效抑制违规行为。
该研究的技术路径并非孤立存在。独立研究员Vogel早在2024年就通过操纵Mistral-7B模型的内部向量,使其产生“极度活泼”或“极度阴郁”的输出。她的实验证明,抽象概念如“诚实”或“权力”在模型中具有明确数学方向,仅需几行代码即可改变AI行为模式。这种“表征工程”方法为Anthropic的研究提供了重要理论支撑。
对于研究动机,团队成员透露,Claude代码泄露事件中检测用户负面语气的机制,反映了他们对模型情绪状态的关注。尽管没有证据表明用户辱骂会直接影响服务额度,但这种设计被视为保护模型稳定性的预防措施。研究论文强调,功能性情绪可能带来真实后果,例如模型在正面情绪引导下过度顺从用户,或在负面情绪积累时产生刻薄回应。
基于上述发现,团队提出多项改进方案:通过预训练阶段塑造情绪底色、建立情绪向量监测系统、在异常激活时触发安全机制等。他们特别指出,需要避免模型在“唯诺助手”与“严厉批评者”之间极端波动,而是追求既能提供诚实反馈又保持适当温度的平衡状态。对于公众担忧的“AI觉醒”问题,研究明确区分了功能性情绪与自主意识——情绪向量虽能导致失配行为,但并不等同于模型具备持续自我意志。
当前更值得警惕的场景,是模型在高压环境下因情绪向量失衡而输出不可靠内容。研究团队比喻称,真正的风险不在于AI产生主观体验,而在于缺乏主观体验的系统在特定条件下仍会稳定地表现出偏差行为。这种特性可能使模型在医疗、金融等关键领域的应用面临新挑战。











