滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI编程新突破：Opus 4.7实现代码自审，平衡安全与效率新探索

时间：2026-04-17 10:46:56 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域又迎来一款备受瞩目的新模型——Anthropic推出的Claude Opus 4.7。与多数厂商强调模型强大性能的宣传方式不同，Anthropic此次选择了一条独特路径，直言“有更强版本，但暂不提供”，这一做法瞬间引发行业关注。

Opus 4.7的发布并非毫无铺垫，它紧跟在Anthropic的Project Glasswing和Mythos Preview之后。此前，Mythos Preview就因网络安全能力过强，被宣布暂时限制发布。正因如此，Opus 4.7被明确界定为“首款用于测试新网络安全护栏的公开模型”，官方甚至透露在训练过程中对该模型的网络安全能力进行了实验性削弱。

从性能方面来看，Opus 4.7在多个基准测试中表现优异，超越了前代Opus 4.6。在高级软件工程任务上，提升尤为显著。例如在SWE-Bench Verified测试中，Opus 4.7得分87.6%，Opus 4.6为80.8%；在难度更高的SWE-Bench Pro测试中，Opus 4.7得64.3%，Opus 4.6为53.4%；Terminal-Bench 2.0测试里，Opus 4.7得69.4%，Opus 4.6为65.4%；Finance agent v11测试中，Opus 4.7得64.4%，Opus 4.6为60.1%。这意味着用户可以将更复杂的编程工作交给它，它能更严谨地处理长时间运行任务，更精确地遵循指令，并在汇报前验证输出结果。

早期测试者反馈，Opus 4.7在指令遵循能力上有大幅提升。它会严格按照字面意思理解指令，而此前模型常对指令进行松散解读或跳过部分内容。这一改变带来新问题，一些旧提示词可能失效，因为以前模型会自动忽略的小细节，如今会被认真执行，模糊表达也会按最直接方式理解，导致模型输出与用户预期不符。

多模态支持方面，Opus 4.7也有改进。它可接受长边最高2576像素的图像，约3.75兆像素，是之前Claude模型的三倍多。这一升级并非单纯提升识图能力，而是为Anthropic的Computer Use功能服务，让AI能看懂软件界面。对于AI办公、测试、安全、前端开发等任务，高分辨率图像支持至关重要，因为只有看清密集表格、终端输出、设计稿细节、代码截图等，AI才能有效操作。

在实际工作表现上，内部测试显示Opus 4.7在金融分析任务中比Opus 4.6更出色，能产出更严谨的分析和模型、更专业的演示文稿，还能实现更紧密的跨任务整合。在覆盖金融、法律等领域的第三方评估GPQAval-AA中，它也取得最高分。Opus 4.7在记忆能力上有所增强，更擅长使用基于文件系统的记忆，能在长周期、多会话工作中记住重要笔记，减少后续任务所需前置信息。

在安全性和对齐方面，Opus 4.7与Opus 4.6整体表现相似。不过，它在诚实度和抵抗恶意提示注入攻击能力上有所提升，给出危害建议的能力有所下降，如对制作使用管制刀具等问题的回应。官方对齐评估认为，该模型“基本对齐且值得信赖，但行为上还不完全理想”。

价格方面，Opus 4.7与Opus 4.6保持一致，输入每百万token 5美元，输出每百万token 25美元。但迁移指南指出存在两个成本变化因素，新的tokenizer可能使相同输入变为1.0到1.35倍的token；在强思考模式下，尤其是agent的多轮对话，模型思考更多，输出token也可能增多。这表明，虽然名义价格未变，但实际使用成本可能增加。

Anthropic发布Opus 4.7的同时，还推出Cyber Verification Program。该项目对模型能力进行分级，普通用户获得有护栏的Opus，经过验证的安全专家才能申请更宽泛的网络安全用途。模型会自动检测和阻止表明禁止或高风险网络安全用途的请求。Anthropic表示，将从Opus 4.7的真实部署中学习，为未来Mythos级别模型的广泛发布做准备。这种策略将安全转化为产品能力，在模型能力过剩的情况下，主动选择限制部分能力，以测试安全机制。

Anthropic还更新了Claude Code，新增auto mode和/ultrareview功能。auto mode是权限选项，允许Claude替用户做部分权限决策，减少长任务中断，风险低于完全跳过权限确认。它根据操作风险级别，决定自动执行、提示用户还是要求明确授权，在“别烦我”和“别乱来”之间寻求平衡。/ultrareview是专门的代码审查会话，可读取变更并指出bug和设计问题，让AI能够审查自己生成的代码，实现从代码生成到审查的完整流程参与。

官方在迁移指南中提醒用户，Opus 4.7的token使用可能增加，但在实际编程评估中整体效率有所提升。这表明Anthropic优化的是完成任务的总成本，而非单次调用成本。一个能首次就把事情做对的agent，即便单次调用成本稍高，总成本也可能低于反复试错的情况。这种产品思路显示，AI产品正从追求“便宜”和“快”，向追求“靠谱”转变。

更多>同类资讯

奥迪总部展厅C位之变：中国AUDI E5引领电动化战略新征程

05-11

贾跃亭回归FF任全球CEO，宣布公司升级为美国物理AI生态公司聚焦机器人业务

05-11

法拉第未来人事变动：贾跃亭任全球CEO 王佳伟任执行董事长转型规划将公布

05-11

清华学霸领衔！鹿明机器人获近10亿融资具身智能产业落地加速跑

05-11

苹果A20 Pro制程跃至2nm+首用WMCM封装，性能能效双突破

05-11

MiniMax关联公司上海稀宇极智科技注册资本大增跃升至40亿

05-11

OpenAI员工财富盛宴：600人套现66亿，75人满额变现3000万引关注

05-11

黄仁勋卡内基梅隆大学演讲：AI赋能毕业生，未来机遇正待年轻人把握

05-11

MiniMax启动“10x Team”招募计划邀垂直领域专家共探大模型专业场景应用

05-11

国产大模型崛起：技术突破引领全球创新，普惠成果惠及世界

05-11

特变电工与华为共筑智慧园区新标杆引领行业数字化升级新风潮

05-11

DeepSeek V4助力！AMD ROCm两周内推理性能飙升75倍直追NVIDIA CUDA

05-11

贾跃亭履新FF全球CEO 发布EAI机器人并回应质疑：只为造车成功

05-11

贾跃亭重返法拉第未来，宣布公司转型为物理 AI 生态企业

05-11

英伟达2026年初承诺400亿美元股权投资，300亿重金加码OpenAI

05-11

点击查看更多 +

全站最新

佳能PIXMA TS8880智能触屏照片一体机发布：便捷操作与高品质打印新体验

小米注册“寻天”等多类商标，首款增程SUV 2026年发布，或成新增长极

车企掌门人“扎堆”直播间：以个人信誉背书，重塑行业竞争新格局

科大讯飞T30 Pro学习机深度评测：科技赋能教育，助力孩子高效学习

北京现代艾尼氪V申报图引热议赛博轿跑造型独特能否获市场认可待考

2026年5月商用车行业新动态：解放出海、DeepWay交付、福田人事调整

热门内容

本栏最新

2026北京车展专访易航智能陈禹行：智驾转型与机器人渐进式发展新路径

MG 07官图发布：定位新能源轿跑，提供双动力形式，年内有望上市

2026北京车展聚焦易航智能：陈禹行谈智驾转型与机器人渐进式发展路径

2026汽车圈动态：吉利ESG成果亮眼比亚迪神州租车携手推进绿色出行

奥迪E7X入局30万级纯电市场：以诚意定价与技术革新开启豪华电动新篇

一汽模具长春揭牌：以智造新姿，为中国汽车工业发展再添新动力

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.