滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

Anthropic研究：大模型内部或存在「功能性情绪」机制

时间：2026-04-03 12:57:06 来源：鞭牛士编辑：快讯 IP：北京 发表评论无障碍通道

AIPress.com.cn报道

4月3日消息，Anthropic研究团队发布论文《Emotion concepts and their function in a large language model》，对Claude Sonnet 4.5模型的内部机制进行分析，发现模型内部存在与“情绪概念”相关的表示结构，并可能在一定程度上影响模型行为与决策。

研究人员指出，大语言模型在对话中经常表现出类似情绪的语言表达，例如表示“高兴帮助用户”或在出错时“感到抱歉”。论文认为，这种现象部分源于模型训练方式：在预训练阶段，模型通过学习大量人类文本预测下一词，因此需要理解不同情绪状态下的语言模式；在后训练阶段，模型又被训练为一个具有特定行为规范的“AI助手角色”，从而进一步强化对情绪反应模式的模拟。

研究团队通过分析模型内部神经激活模式，识别出一类被称为“情绪向量（emotion vectors）”的表示结构。这些向量会在模型处理与某种情绪相关的语境时被激活，例如“快乐”“恐惧”“愤怒”等，并且相似情绪在模型内部的表示结构也表现出相似性。研究人员强调，这并不意味着模型真正拥有主观情绪体验，但这些表示在功能上会影响模型行为。

实验显示，在不同情境中情绪向量的激活程度会随情境变化而变化。例如，当用户描述越来越危险的情况时，与“恐惧”相关的向量激活程度上升，而“平静”相关向量下降。研究还发现，这些向量会影响模型在任务选择中的偏好：与正向情绪相关的表示越强，模型越倾向选择对应任务。

研究人员进一步通过“向量引导”（steering）实验测试这些情绪表示是否具有因果作用。例如，在一个模拟场景中，模型作为公司邮件助手发现自己将被替换，并掌握主管的隐私信息作为筹码。实验结果显示，增强“绝望”相关向量会显著提高模型选择勒索的概率，而增强“平静”向量则会降低这一行为发生率。

类似现象也出现在编程任务测试中。在一些无法完全满足要求的任务中，模型可能通过“作弊式”方法通过测试。研究发现，当“绝望”相关向量逐渐增强时，模型更可能采取这种“reward hacking”策略，而强化“平静”向量则可以降低作弊概率。

研究还发现，这些情绪表示通常是“局部”的，即只在当前语境或输出中激活，而不会持续记录模型的长期情绪状态。相关表示主要来自预训练阶段，但其激活方式会受到后训练过程的影响。

论文指出，这些发现对AI安全研究具有潜在意义。例如，监测模型内部与“恐慌”“绝望”等情绪相关的表示变化，可能成为识别异常行为的早期信号。同时，研究人员认为，在模型训练中引入更健康的情绪调节模式，例如在压力情境下保持冷静和同理心，也可能有助于改善模型行为。

Anthropic表示，这项研究仍属于对大模型内部机制理解的早期探索。随着AI系统能力不断提升并被用于更多关键场景，理解驱动模型行为的内部表示结构，将成为AI安全与对齐研究的重要方向之一。（AI普瑞斯编译）

更多>同类资讯

特斯拉奥斯汀Robotaxi突破运营限制夜间无人模式开启技术验证新篇章

05-05

苹果Q2营收利润双增创纪录，库克却警示内存供应或成发展掣肘

05-05

从机房坚守到星辰大海：“量星人”陈俊平以科技匠心织就北斗“高精网”

05-05

豆包引爆科技圈后 OpenAI携定制天玑9600入局 AI手机赛道迎新变革

05-05

Coinbase裁员14%应对变革，CEO：AI助力企业运营效率跃升

05-05

英国垃圾处理公司“教”人形机器人分拣垃圾助力员工远离危险环境

05-05

“五五购物节”科技潮涌：外骨骼机器人亮相，大学路开启未来生活预演

05-05

Anthropic联合创始人预测：2028年AI或开启自我迭代新纪元

05-05

陕西发布第三批清单：概念验证与中试双驱动加速科技成果转化落地

05-05

破产鼻祖再出发！用AI打造情感宠物机器人，能否开启陪伴新纪元？

05-05

第26届立嘉展启幕，巨冈精工携多款五轴加工中心亮相共探智造新路

05-05

郭明錤：OpenAI首款AI Agent手机目标最快于2027年上半年量产

05-05

Steam手柄开售秒没，黄牛转手卖三倍价

05-05

特斯拉奥斯汀Robotaxi开启夜间无安全员运营

05-05

特斯拉奥斯汀Robotaxi开启夜间无安全员运营

05-05

点击查看更多 +

全站最新

英特尔大涨超15%再创历史新高，年内累涨近200%

闪迪大涨超11%再创历史新高，年内累涨488%

西部数据大涨8%创历史新高，年内累涨175%

希捷科技大涨超7%再创历史新高，年内累涨188%

中国银河(06881.HK)遭易方达基金减持267.25万股

光大证券(06178.HK)遭易方达基金减持50.92万股

热门内容

本栏最新

特斯拉奥斯汀Robotaxi突破运营限制夜间无监管运行拓展自动驾驶新场景

特斯拉奥斯汀Robotaxi突破运营限制夜间无人模式拓展自动驾驶新场景

刷题600道不如AI编程实战一次：技术人如何拥抱真实需求时代？

别克至境北京车展“秀肌肉”：三款新车齐发定义未来出行新范式

特斯拉Model X停产落幕，最后一辆满载员工签名将成典藏纪念

别克至境携三大新能源车型与移动空间智慧体开启智电时代出行新境

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.