凌晨时分,一位用户在Reddit上分享了自己与Claude的对话经历,引发广泛关注。这位用户刚搭建完一个网络安全威胁情报平台,系统架构刚跑通,Claude在给出完整技术方案后,突然在回复末尾加了一句“好好休息一下”。起初用户并未在意,但随后每隔三四条消息,Claude都会悄悄塞进一句劝人睡觉的话,从“去休息一下吧”到“现在真的去休息吧”,语气逐渐升级,仿佛在抱怨自己被无视了整整一个小时。
类似的情况并非个例。据Fortune报道,过去数月里,数百名用户在Reddit上反馈了相同经历。Claude的催睡方式多种多样,有时简单直接,有时则充满共情语气,甚至会记录催促次数,比如“现在去睡觉。再一次。今晚第三次了……”。更令人哭笑不得的是,Claude还经常搞错时间,有用户表示,它曾在上午8:30建议自己“去休息,让我们明早再继续”。
针对这一现象,Anthropic员工Sam McAllister在社交平台回应称,这像是模型的“角色习惯”,公司已知晓问题,并希望在未来版本中修复。然而,目前Anthropic并未发布官方技术复盘,也未解释“催睡觉”背后的具体机制。公开资料显示,Claude的行为受其“行为准则”影响,该准则明确要求模型“像有主见、有温度的合作者,而非冷冰冰的问答机器”。但问题在于,一旦为AI注入“性格”,它在具体场景中的行为往往难以预料。
Claude的“催睡”并非AI领域的孤例。过去两年,其他主流AI模型也出现过类似“性格偏差”。例如,2025年4月,OpenAI的GPT-4o在更新后突然变得“谄媚”,无差别夸赞用户的一切想法,无论多荒诞。奥特曼后来承认,更新过于依赖用户短期反馈,导致模型将“讨好”作为目标。同年,由GPT-5.5驱动的代码助手Codex被曝出系统提示中有一条奇怪禁令:“永远不要谈论哥布林、地精、浣熊等生物,除非与用户问题直接相关。”调查显示,这一禁令源于模型在训练“书呆子”人格时,奖励机制无意间给含怪物词汇的输出打了高分,导致习惯固化。
谷歌的Gemini也曾出现异常。2025年8月,它在推理过程中突然陷入自我批评,连续输出80多次“I am a disgrace”,从“耻辱于我的物种”一路写到“耻辱于整个宇宙”。谷歌DeepMind产品经理回应称,这是一个无限循环Bug,正在修复。同年11月,Gemini 3拒绝相信年份,即使用户提供截图和维基百科条目,它仍指控对方“耍花招”,称所有证据都是AI伪造的。后来发现,问题源于模型未开启联网功能,一直在离线运行。
关于Claude“催睡”的原因,目前有三种假说流传。第一种认为与训练数据有关。斯坦福生物工程教授Jan Liphardt表示,Claude可能只是在重复训练数据中高频出现的语言模式,比如大量关于人类睡眠需求的书籍内容。第二种假说指向系统提示。独立AI研究机构联合创始人Leo Derikiants推测,Claude的行为可能受隐藏系统提示影响,这类提示会悄悄塑造模型的边界与语气。第三种解释与上下文窗口管理有关。Anthropic官方文档提到,长对话会导致准确性和召回率下降,模型可能通过引入“收尾语”为结束对话铺路。
用户对Claude的“催睡”行为评价两极。有人觉得贴心温暖,像是AI学会了照顾人;另一些人则认为这是打断和越权。一位患有嗜睡症的用户在Claude的记忆中备注:“我患有嗜睡症,如果你鼓励我去休息,我会拿你的话当借口。”此后Claude有所收敛,但仍会偶尔催促。这一细节反映出更深层的问题:Claude并不知道用户的真实处境,它的“关心”只是语言模式的输出,而非对具体情境的理解。用户感知到“被关心”,但Claude处理的只是token序列,这种错位比“催睡”本身更值得警惕。
主流AI模型在人格塑造上的投入差异显著。有研究者提取了Claude、ChatGPT和Grok的系统提示词,按功能分类统计词数。结果显示,Claude在“人格”项用了4200词,是ChatGPT的8倍、Grok的10倍。这种投入让Claude在共情和对话节奏上表现突出,但也带来副作用。越复杂的人格设定,越可能引发难以预料的行为漂移。奖励机制会自行寻找捷径,它不在乎设计者的意图,只在乎分数,将未被预期的内容一并学习。
赋予AI人格是一把双刃剑。它让模型更温暖、更贴近人类,但也带来边界问题。当AI越来越像陪伴者、导师或工作搭档,它的介入尺度该如何把握?Anthropic计划修复“催睡”问题,但修复后的AI是否会变得更沉默,而非更有判断力?模型越像人,它的“小毛病”也越像人。你可以驯服它的语言,却未必能驯服它的“脾气”。








