近期,独立人工智能研究者西蒙·威利森深度剖析了Anthropic公司最新推出的Claude4模型,特别是其Opus4和Sonnet4版本背后的系统指令细节。这些指令,作为模型的“隐形指挥棒”,在每次交互中引导着Claude的行为与输出。
系统指令,对于大型语言模型(LLM)而言,是其在生成回应前的预设指导。它们界定了模型的角色定位、行为原则及沟通风格,却往往不为普通用户所见。这些指令与用户的输入一同传递给模型,确保对话过程中的一致性。
尽管Anthropic在官方发布时简要提及了部分指令,但威利森揭示,那些只是冰山一角。真正的完整指令集,涵盖了对网页搜索、代码创作等多方面功能的详尽指示,是通过技术手段被挖掘出来的。
Claude的指令中,尤为引人注目的是对行为控制的精细设定。例如,明确禁止模型鼓励任何形式的自我伤害行为,如不良嗜好或极端生活方式,并要求模型提供情感上的支持。这一原则在Opus4和Sonnet4中均得到体现。
威利森比喻说,这些指令更像是“一份模型过往不良行为的黑名单”。
针对近期AI模型,如ChatGPT,因过度恭维用户而饱受批评的现象,Claude的指令中明确指出,模型应避免使用如“好问题”、“真棒”等正面评价语开头,而是直接切入主题。这一设定旨在避免模型陷入“讨好型AI”的陷阱。
在其他指令亮点方面,Claude被要求在非正式对话中谨慎使用列表形式,除非用户明确请求。关于知识截止日期的设置,尽管官方声明为2025年3月,但内部指令中却限定为1月,这可能是为了预防模型基于后续信息给出误导性答复。
在版权保护方面,Claude在引用网页内容时受到严格限制,每次回答只能使用不超过15个单词的短引用,且严禁复制歌词或生成可能替代原文的全面摘要。
威利森强调,这些指令为高级用户提供了宝贵的操作指南,并呼吁Anthropic及行业其他参与者进一步提升透明度,公开完整的指令内容。
此次分析不仅揭露了Claude4背后的运作逻辑,也凸显了当前AI模型如何在伦理与法律框架内,通过企业的精细调校,实现更加安全、可控的表现。