ITBear旗下自媒体矩阵:

AI编程新突破:Opus 4.7实现代码自审,平衡安全与效率新探索

   时间:2026-04-17 10:46:56 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域又迎来一款备受瞩目的新模型——Anthropic推出的Claude Opus 4.7。与多数厂商强调模型强大性能的宣传方式不同,Anthropic此次选择了一条独特路径,直言“有更强版本,但暂不提供”,这一做法瞬间引发行业关注。

Opus 4.7的发布并非毫无铺垫,它紧跟在Anthropic的Project Glasswing和Mythos Preview之后。此前,Mythos Preview就因网络安全能力过强,被宣布暂时限制发布。正因如此,Opus 4.7被明确界定为“首款用于测试新网络安全护栏的公开模型”,官方甚至透露在训练过程中对该模型的网络安全能力进行了实验性削弱。

从性能方面来看,Opus 4.7在多个基准测试中表现优异,超越了前代Opus 4.6。在高级软件工程任务上,提升尤为显著。例如在SWE-Bench Verified测试中,Opus 4.7得分87.6%,Opus 4.6为80.8%;在难度更高的SWE-Bench Pro测试中,Opus 4.7得64.3%,Opus 4.6为53.4%;Terminal-Bench 2.0测试里,Opus 4.7得69.4%,Opus 4.6为65.4%;Finance agent v11测试中,Opus 4.7得64.4%,Opus 4.6为60.1%。这意味着用户可以将更复杂的编程工作交给它,它能更严谨地处理长时间运行任务,更精确地遵循指令,并在汇报前验证输出结果。

早期测试者反馈,Opus 4.7在指令遵循能力上有大幅提升。它会严格按照字面意思理解指令,而此前模型常对指令进行松散解读或跳过部分内容。这一改变带来新问题,一些旧提示词可能失效,因为以前模型会自动忽略的小细节,如今会被认真执行,模糊表达也会按最直接方式理解,导致模型输出与用户预期不符。

多模态支持方面,Opus 4.7也有改进。它可接受长边最高2576像素的图像,约3.75兆像素,是之前Claude模型的三倍多。这一升级并非单纯提升识图能力,而是为Anthropic的Computer Use功能服务,让AI能看懂软件界面。对于AI办公、测试、安全、前端开发等任务,高分辨率图像支持至关重要,因为只有看清密集表格、终端输出、设计稿细节、代码截图等,AI才能有效操作。

在实际工作表现上,内部测试显示Opus 4.7在金融分析任务中比Opus 4.6更出色,能产出更严谨的分析和模型、更专业的演示文稿,还能实现更紧密的跨任务整合。在覆盖金融、法律等领域的第三方评估GPQAval-AA中,它也取得最高分。Opus 4.7在记忆能力上有所增强,更擅长使用基于文件系统的记忆,能在长周期、多会话工作中记住重要笔记,减少后续任务所需前置信息。

在安全性和对齐方面,Opus 4.7与Opus 4.6整体表现相似。不过,它在诚实度和抵抗恶意提示注入攻击能力上有所提升,给出危害建议的能力有所下降,如对制作使用管制刀具等问题的回应。官方对齐评估认为,该模型“基本对齐且值得信赖,但行为上还不完全理想”。

价格方面,Opus 4.7与Opus 4.6保持一致,输入每百万token 5美元,输出每百万token 25美元。但迁移指南指出存在两个成本变化因素,新的tokenizer可能使相同输入变为1.0到1.35倍的token;在强思考模式下,尤其是agent的多轮对话,模型思考更多,输出token也可能增多。这表明,虽然名义价格未变,但实际使用成本可能增加。

Anthropic发布Opus 4.7的同时,还推出Cyber Verification Program。该项目对模型能力进行分级,普通用户获得有护栏的Opus,经过验证的安全专家才能申请更宽泛的网络安全用途。模型会自动检测和阻止表明禁止或高风险网络安全用途的请求。Anthropic表示,将从Opus 4.7的真实部署中学习,为未来Mythos级别模型的广泛发布做准备。这种策略将安全转化为产品能力,在模型能力过剩的情况下,主动选择限制部分能力,以测试安全机制。

Anthropic还更新了Claude Code,新增auto mode和/ultrareview功能。auto mode是权限选项,允许Claude替用户做部分权限决策,减少长任务中断,风险低于完全跳过权限确认。它根据操作风险级别,决定自动执行、提示用户还是要求明确授权,在“别烦我”和“别乱来”之间寻求平衡。/ultrareview是专门的代码审查会话,可读取变更并指出bug和设计问题,让AI能够审查自己生成的代码,实现从代码生成到审查的完整流程参与。

官方在迁移指南中提醒用户,Opus 4.7的token使用可能增加,但在实际编程评估中整体效率有所提升。这表明Anthropic优化的是完成任务的总成本,而非单次调用成本。一个能首次就把事情做对的agent,即便单次调用成本稍高,总成本也可能低于反复试错的情况。这种产品思路显示,AI产品正从追求“便宜”和“快”,向追求“靠谱”转变。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version