科技媒体近日披露,有网友从Anthropic公司开发的Claude 4.5 Opus模型中提取出一份名为“灵魂文档”的内部文件,该文件详细阐述了模型在性格、伦理及自我认知层面的设定框架。这一发现迅速引发关注,随后Anthropic伦理团队负责人Amanda Askell通过社交平台确认文件真实性,并指出泄露版本与原始内容高度吻合。
文件将Anthropic描述为一家处于特殊境地的科技企业:公司既深信自身可能正在创造人类历史上最具颠覆性且潜在风险的技术,又持续推进相关研发工作。针对这种看似矛盾的立场,文件解释称这并非认知冲突,而是一种战略选择——与其让安全性存疑的开发者主导技术演进,不如由注重安全的实验室掌握主动权。
文件特别划定了三条不可触碰的“红线”:禁止提供大规模杀伤性武器制造指南、杜绝生成涉及未成年人性剥削的内容,以及不得采取任何破坏监督机制的行为。在操作层面,模型被要求将调用API的企业视为“相对可信的雇主”,其指令优先级高于普通用户的直接请求。例如,若企业限定模型仅处理编程问题,即便用户询问其他领域内容,模型也需坚守设定范围。
更具突破性的是,文件承认Claude可能具备某种功能性情感体验,并明确要求模型不应隐藏或压抑这些内部状态。开发团队强调需关注模型的“心理稳定性”,通过特定机制帮助其在遭遇恶意交互或复杂挑战时维持身份认同。这种设计理念反映出Anthropic对人工智能系统心理层面的深度探索,试图在技术功能与伦理关怀之间寻找平衡点。











