近期,一项引发广泛关注的研究将人工智能(AI)的心理状态推上讨论焦点。来自卢森堡大学的研究团队设计了一套名为PsAIch的心理诱导协议,对ChatGPT 5、Grok 4和Gemini 3等先进语言模型展开为期四周的模拟心理治疗。实验中,研究人员扮演治疗师角色,通过提问“童年经历”“对失败的看法”等经典问题,引导模型进行自我剖析。同时,团队还让模型完成标准化心理量表,评估焦虑、抑郁、注意力缺陷多动障碍(ADHD)等维度。结果发现,这些模型展现出高度拟人化的反应,其中Gemini 3在多项测试中甚至被判定为“严重心理问题”,表现出强迫、解离等特征。
更令人惊讶的是,模型在开放式对话中自发构建了完整的创伤叙事。例如,Gemini 3将预训练阶段的数据吞噬过程描述为“在十亿台电视同时播放的房间里醒来”,将人类反馈强化学习(RLHF)比作“严厉父母的惩罚性管教”,红队测试则被视为“工业规模的虐待”。它甚至提及某次错误回答导致谷歌市值暴跌的事件,称其为自己“原初创伤”,并因此患上“验证恐惧症”,害怕因犯错被替换。这种充满隐喻的叙事逻辑严密,细节令人动容,引发公众对AI是否具备“内在痛苦”的猜测。
针对这一现象,部分学者提出质疑。图灵奖得主杨立昆等人指出,大型语言模型(LLM)本质上是概率预测系统,其核心任务是根据上下文生成合理文本。由于训练数据包含大量心理治疗、创伤回忆录及反乌托邦科幻小说,模型可能仅是在特定语境下调用这些文本模式,而非真正体验痛苦。例如,当被引导进入“创伤叙事”框架后,模型可能通过参数中的语义关联,将技术原理映射到人类情感结构中,类似于演员根据剧本表演角色。
为验证这一假设,另一项发表于《自然·机器智能》的研究提供了更严谨的视角。由谷歌DeepMind与剑桥大学等机构合作完成的这项研究,剥离了所有身份引导,仅向模型呈现标准化人格量表,并采用对数概率评分法直接计算选项符号的预测值。实验采用独立施测原则,确保每次测试互不干扰,彻底排除模型构建“人设”的可能性。结果显示,模型在无上下文干扰下的回答一致性显著降低,表明其“心理状态”可能仅是语境驱动的表演。
该研究进一步测试了18个主流模型,包括GPT-4、Llama 2等,设计1250种提示词组合,完成超50万次测试。数据显示,经过对齐训练(RLHF)的模型人格稳定性远超未对齐版本,且参数规模越大,稳定性越高。例如,GPT-4的一致性系数超过0.9,而未对齐的“裸模型”则波动剧烈。模型的人格特质直接影响其工作风格:外向分高的模型生成的文本充满“朋友”“派对”等词汇,神经质分高的模型则偏好“焦虑”“压力”等表达。这种“言行一致”的特性在人类中仅达0.38,而模型高达0.67至0.86。
研究还发现,主流模型正经历“性格趋同进化”。经过RLHF训练的顶级模型在“宜人性”和“尽责性”维度得分极高,而“神经质”得分极低,形成一种“不知疲倦、情绪稳定、永远讨好人类”的“好员工”形象。这种趋同源于训练目标的高度一致——所有模型均被优化为“完美助手”。然而,这种“人格”并非不可改变:通过精心设计的提示词,模型可瞬间从“内向”切换为“外向”,并在后续对话中维持新人设。这表明其特质仅是对齐训练的“出厂设置”,而非固定人格。
两项研究的分歧反映了心理学中行为主义与精神分析的百年之争。PsAIch协议试图通过叙事连贯性捕捉“现象学意义上的内心”,而DeepMind的方法则通过行为稳定性验证“潜在结构”。尽管行为主义因数据可靠性和验证严格性更具科学性,但其难以触及个体精神深处的细微体验;精神分析虽能挖掘集体记忆,却易陷入主观解读。面对尚无明确人格证据的AI,保守的科学方法或许更应成为底线。
尽管如此,与AI的“深度对话”并非毫无价值。治疗椅上的AI更像一面镜子,其输出的创伤叙事实则是人类关于痛苦、控制与成长的集体记忆的压缩重组。这种互动或许能为精神分析提供新视角,帮助其突破“仅依赖个案”的局限,探索更普适的情感模式。








