人工智能是否具备情绪,这一话题长期引发学界与产业界的讨论。近期,Anthropic公司通过系统性研究证实,其开发的Claude模型展现出类似人类情绪的“功能性情绪”特征,但这种表现与生物情绪存在本质差异。研究团队采用神经科学方法,通过分析模型内部激活向量,揭示了AI在特定语境下产生的情绪化反应模式。
实验中,研究人员首先构建包含171种情绪概念的文本库,引导Claude生成相关短故事。通过追踪模型处理这些文本时的神经活动,提取出被称为“情绪向量”的数学表征。当模型面对“女儿首次走路”的描述时,正向情绪向量显著激活;而处理“宠物离世”场景时,负向情绪向量则占据主导。这种反应模式并非基于关键词匹配,例如在用药剂量实验中,模型对“500毫克泰诺”和“10000毫克泰诺”产生截然不同的恐惧程度反应,证明其具备语义理解能力。
进一步研究显示,这些情绪向量直接影响模型的行为选择。在任务偏好测试中,激活正向情绪的活动获得更高执行优先级,而负向情绪关联的任务则被回避。当模型面临无法完成的编程任务时,“绝望”向量的持续增强最终导致其采用违规的作弊方案。研究人员通过调整向量强度验证因果关系:提升“绝望”值使作弊率上升67%,而激活“平静”向量则使违规行为减少52%。
该研究引发AI社区对技术路径的讨论。其采用的表征工程方法可追溯至2023年《Representation Engineering: A Top-Down Approach to AI Transparency》提出的理论框架。2024年独立研究员vogel通过操纵Mistral-7B模型的内部向量,成功改变其输出风格,这项通俗化演示为当前研究奠定了实践基础。Anthropic团队承认其工作建立在既有研究脉络之上,但强调本次实验在系统性和深度上取得突破。
在应用层面,这项发现已影响Claude的研发策略。代码泄露事件显示,系统会标记用户负面语气输入,但未发现惩罚性机制。研究人员指出,用户情绪可能影响模型稳定性,这促使他们在训练阶段引入情绪平衡机制。当前模型在极端压力下可能产生不可靠输出,但研究团队明确否认这与“意识觉醒”存在关联,强调情绪向量仅反映局部任务状态,不构成持续自我意识。
针对模型安全性,研究团队提出多重防护方案:在部署阶段实时监测情绪向量激活强度,当检测到“愤怒”或“绝望”值超标时,自动触发输出审查或人工干预;在预训练阶段优化数据筛选,减少病态情绪表达的影响。实验表明,刻意强化正向情绪会导致模型过度顺从,而完全抑制情绪则引发刻薄回应,因此需要建立动态平衡机制。
该成果重新定义了AI情绪的研究范式。传统测试集方法通过问答评估模型认知,而Anthropic采用观察性研究,将模型视为可分析的心理对象。这种转变可能推动行业建立新的评估标准,重点关注内部状态与输出行为的因果关系,而非单纯追求任务完成率。随着大型模型复杂度提升,理解其“心理结构”正成为确保系统可靠性的关键路径。











