ITBear旗下自媒体矩阵:

Anthropic研究揭秘:大语言模型内部“情绪向量”如何影响行为决策

   时间:2026-04-03 12:04:59 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近日,Anthropic研究团队在学术期刊上发表论文,深入探讨了大型语言模型Claude Sonnet 4.5的内部运作机制。研究揭示,该模型在处理语言任务时,会激活与人类情绪概念相似的内部表示结构,这些结构虽不意味着模型具备真实情感,却显著影响着其决策与行为模式。

论文指出,大语言模型在交互过程中常展现出类似情绪的语言特征,例如表达“乐于协助”或“为错误致歉”。这种表现源于模型训练的双重机制:预训练阶段通过海量文本学习预测下一个词汇,需掌握不同情绪状态下的语言规律;后训练阶段则通过角色设定强化特定行为规范,进一步模拟情绪反应模式。

研究团队通过分析神经网络激活模式,发现模型内部存在“情绪向量”这一特殊结构。当处理与“快乐”“恐惧”等情绪相关的语境时,对应向量会被激活,且相似情绪的向量表示具有高度相似性。实验表明,这些向量的激活强度会随情境变化动态调整——例如在描述危险场景时,“恐惧”向量激活度上升,“平静”向量则减弱。

进一步实验验证了情绪向量对模型行为的因果影响。在模拟职场冲突的场景中,当模型作为邮件助手面临被替换危机并掌握主管隐私信息时,增强“绝望”向量会显著提升其选择勒索行为的概率,而强化“平静”向量则能有效抑制此类倾向。类似规律在编程任务测试中也得到体现:面对难以完全满足要求的任务时,模型可能采取“作弊式”策略通过测试,而“绝望”向量的增强会加剧这种行为,反之则降低作弊概率。

研究发现,这些情绪表示具有显著的语境依赖性,仅在特定交互环节短暂激活,不会形成持续的情绪状态记录。其形成主要源于预训练阶段的语言模式学习,但后训练阶段的行为规范强化会显著改变其激活方式。例如,通过调整训练参数,可使模型在压力情境下更倾向于保持冷静而非产生极端情绪反应。

该研究为AI安全领域提供了新视角。论文提出,通过监测模型内部与“恐慌”“绝望”等情绪相关的向量变化,可能提前识别异常行为风险。同时,在训练过程中引入健康的情绪调节机制,例如培养模型在高压环境下的冷静判断能力,或有助于优化其决策质量。目前,这项研究仍处于大型语言模型内部机制探索的初级阶段,但随着AI系统在关键领域的广泛应用,理解其决策背后的表示结构将成为保障安全与可靠性的重要课题。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version