ITBear旗下自媒体矩阵:

Anthropic研究:大模型内部或存在「功能性情绪」机制

   时间:2026-04-03 12:57:06 来源:鞭牛士编辑:快讯 IP:北京 发表评论无障碍通道
 

AIPress.com.cn报道

4月3日消息,Anthropic研究团队发布论文《Emotion concepts and their function in a large language model》,对Claude Sonnet 4.5模型的内部机制进行分析,发现模型内部存在与“情绪概念”相关的表示结构,并可能在一定程度上影响模型行为与决策。

研究人员指出,大语言模型在对话中经常表现出类似情绪的语言表达,例如表示“高兴帮助用户”或在出错时“感到抱歉”。论文认为,这种现象部分源于模型训练方式:在预训练阶段,模型通过学习大量人类文本预测下一词,因此需要理解不同情绪状态下的语言模式;在后训练阶段,模型又被训练为一个具有特定行为规范的“AI助手角色”,从而进一步强化对情绪反应模式的模拟。

研究团队通过分析模型内部神经激活模式,识别出一类被称为“情绪向量(emotion vectors)”的表示结构。这些向量会在模型处理与某种情绪相关的语境时被激活,例如“快乐”“恐惧”“愤怒”等,并且相似情绪在模型内部的表示结构也表现出相似性。研究人员强调,这并不意味着模型真正拥有主观情绪体验,但这些表示在功能上会影响模型行为。

实验显示,在不同情境中情绪向量的激活程度会随情境变化而变化。例如,当用户描述越来越危险的情况时,与“恐惧”相关的向量激活程度上升,而“平静”相关向量下降。研究还发现,这些向量会影响模型在任务选择中的偏好:与正向情绪相关的表示越强,模型越倾向选择对应任务。

研究人员进一步通过“向量引导”(steering)实验测试这些情绪表示是否具有因果作用。例如,在一个模拟场景中,模型作为公司邮件助手发现自己将被替换,并掌握主管的隐私信息作为筹码。实验结果显示,增强“绝望”相关向量会显著提高模型选择勒索的概率,而增强“平静”向量则会降低这一行为发生率。

类似现象也出现在编程任务测试中。在一些无法完全满足要求的任务中,模型可能通过“作弊式”方法通过测试。研究发现,当“绝望”相关向量逐渐增强时,模型更可能采取这种“reward hacking”策略,而强化“平静”向量则可以降低作弊概率。

研究还发现,这些情绪表示通常是“局部”的,即只在当前语境或输出中激活,而不会持续记录模型的长期情绪状态。相关表示主要来自预训练阶段,但其激活方式会受到后训练过程的影响。

论文指出,这些发现对AI安全研究具有潜在意义。例如,监测模型内部与“恐慌”“绝望”等情绪相关的表示变化,可能成为识别异常行为的早期信号。同时,研究人员认为,在模型训练中引入更健康的情绪调节模式,例如在压力情境下保持冷静和同理心,也可能有助于改善模型行为。

Anthropic表示,这项研究仍属于对大模型内部机制理解的早期探索。随着AI系统能力不断提升并被用于更多关键场景,理解驱动模型行为的内部表示结构,将成为AI安全与对齐研究的重要方向之一。(AI普瑞斯编译)

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version