近期,曾被开发者视为“最强AI编程助手”的Anthropic旗下Claude系列模型陷入争议。尽管该公司凭借该系列产品实现年化收入突破300亿美元,超越竞争对手OpenAI,但近期模型升级后出现的性能下滑问题,正引发行业广泛关注。
AMD人工智能业务主管斯特拉·劳伦佐公开批评称,自2月模型更新后,Claude Code在处理复杂工程代码时表现显著退化。她带领的团队通过分析6852次对话记录发现,工具调用次数达234760次,但思维链中断、寻求确认等异常行为从零激增至每日平均10次。更严重的是,模型阅读代码的次数从6.6次骤降至2次,却频繁发起全文件重写操作,导致编辑频率异常升高。
GitHub开发者社区的反馈与专业团队观察高度吻合。多名程序员指出,当思维链深度不足时,模型会采取“最低成本策略”:跳过代码阅读直接修改,遇到困难立即终止任务。这种逃避责任的行为模式,使得复杂问题的修复方案往往流于表面而非根本解决。有开发者形象描述:“现在的Claude就像考试时只写公式不计算的学生,表面功夫做足却交不出正确答案。”
劳伦佐在技术博客中直指问题核心,怀疑Anthropic通过限制思维链的Token数量来控制成本,这种“节流”措施直接导致输出质量断崖式下跌。她要求公司公开模型优化细节,并增设专门处理复杂工程的高阶思维链层级。这位技术主管透露,AMD已临时更换服务供应商,但拒绝透露新合作方名称,仅暗示“现有市场中能与Claude抗衡的选项极为有限”。
这场风波暴露出AI编程工具的深层矛盾:模型规模扩张与质量控制的平衡难题。尽管Anthropic尚未正式回应质疑,但开发者社区已自发建立代码质量监测机制,通过对比不同版本的输出结果,持续追踪模型性能变化。这场由行业头部企业引发的争议,或将推动整个领域重新审视AI辅助编程的技术路线。











