Anthropic昨夜扔下了一颗重磅炸弹。Claude Opus 4.7正式上线。
在最关键的软件工程能力上,它完成了对GPT-5.4的超越,甚至在某些指标上逼近了尚未全面开放的Claude Mythos Preview。
01 编程能力暴涨
Opus 4.7在代码领域的表现相当出色。
在权威的SWE-bench Pro基准测试中,Opus 4.7的得分从4.6版本的53.4%直接跳涨至64.3%。
这是什么概念?
GPT-5.4在同一测试中的成绩是57.7%,而Opus 4.7一口气拉开了近7个百分点的差距。
而在SWE-bench Verified的成绩是87.6%,相比4.6的80.8%提升近7个百分点。
这些数据的早期测试用户反馈,以前那些需要工程师盯着看的高难度编程任务,现在可以放心地交给Opus 4.7独立完成。
因为它不仅能处理复杂的长时任务,还会主动验证自己的输出,甚至会在执行前进行「自我纠错」。
Stripe的工程团队在测试中提到:「Opus 4.7能在规划阶段就捕捉到自己的逻辑缺陷,并加速执行。这对需要大规模交付可信金融解决方案的我们来说,可能是游戏规则的改变者。」
02 视觉3倍分辨率
Opus 4.7新版本支持高达2,576像素(长边)的图像输入,分辨率是前代模型的三倍以上,约3.75兆像素。
它可以看清复杂技术图纸上的微小标注,能准确解读化学分子的立体结构,在计算机操作任务中,能从高分辨率截图里识别出细枝末节的UI元素。
在CharXiv视觉推理基准测试中,Opus 4.7的得分从4.6的 69.1% 跃升至 82.1%;配合工具使用时,更是达到了91.0%,相较于前代的84.7%提升巨大。
XBOW,即自主渗透测试平台,的测试数据更为震撼:在视觉敏锐度基准测试中,Opus 4.7得分98.5%,而Opus 4.6仅为54.5%。
「我们最大的痛点一夜之间消失了」,XBOW团队表示。
03 金融、法律、科研等方面也大有提升
别以为Opus 4.7只是个程序员专属模型。在多个专业领域,它都展现出了专家级的素养。
金融领域,它在Finance Agent v1.1测试中取得64.4%的成绩,并在 GDPval-AA,即第三方经济价值知识工作评估测试中创下Claude系列模型的最佳表现。
从财务建模到专业演示文稿制作,Opus 4.7被评价为「比4.6更严谨的金融分析师」。
法律领域,在BigLaw Bench测试中,Opus 4.7在高难度任务下达到 90.9%的准确率。
它能准确区分「转让条款」和「控制权变更条款」,要知道,这可是前沿模型普遍头疼的微妙区别。
科研与多语言,在Graduate-level reasoning测试中,Opus 4.7达到 94.2%,与GPT-5.4 Pro的94.4%和Gemini 3.1 Pro的94.3%处于同一梯队;多语言问答(MMMLU)也提升至91.5%。
04 新版本特性
Opus 4.7在行为模式上有一个有趣的转变:它变得更擅长遵循指令,也更愿意表达专业观点。
一方面,它的指令遵循能力显著增强。
Anthropic特别提示,以前为旧版本编写的提示词可能需要重新调整,因为Opus 4.7会严格按照字面意思执行,而不会像4.6那样宽松解释或跳过部分指令。
另一方面,它在技术讨论中表现出更强的专业素养。
Replit团队注意到:它会在技术讨论中提出反驳,帮助我做更好的决策。感觉真的像一个更好的同事,而不是一个只会说好的的应声虫。
Opus 4.7在文件系统记忆方面也有改进,能在长时间、多会话的工作中记住重要笔记,减少重复上下文的输入。
05 安全、价格与获取方式
安全防护是这次发布的重要一环。
Anthropic表示,Opus 4.7是网络安全风险研究项目框架下的首个模型,其网络攻击能力相比Mythos Preview已被差异化降低。
模型内置了自动检测机制,可阻止高风险的网络安全滥用请求。
当然,合法的漏洞研究、渗透测试和红队测试并不在此列,安全专业人士可申请加入全新的Cyber Verification Program。
价格方面,Opus 4.7维持与4.6相同的定价,输入定价$5/百万token,输出定价$25/百万token。
目前,Claude网页端和App已全面上线,API模型名称为claude-opus-4-7,同时登陆Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry。
但Claude近日要搞AI实名制,国内用户可能体验不到这波更新了。











