ITBear旗下自媒体矩阵:

华裔牛顿领衔红队,为Anthropic新模型网络安全保驾护航

   时间:2026-04-09 01:14:13 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

全球人工智能领域迎来一场关于安全与能力的深度讨论。Anthropic公司最新研发的Claude Mythos Preview模型因展现超强网络安全能力引发行业震动,这款被内部评估为"强到令人不安"的模型最终未选择公开发布,而是通过"玻璃之翼项目"定向赋能关键领域防御体系建设。

这个决策背后站着一位特殊的研究者——华裔科学家程牛顿(Newton Cheng)。作为斯坦福大学物理系荣誉毕业生、UC伯克利量子信息方向博士,这位曾短暂涉足量化金融的学者,在2022年加入Anthropic后迅速成为前沿红队网络安全方向的核心人物。他带领的团队通过系统性压力测试,验证了新模型在漏洞挖掘、沙箱逃逸等攻击场景中的突破性能力。

前沿红队作为Anthropic的"安全哨兵",采用红蓝对抗模式对模型进行极限测试。这支由11名精英组成的团队下设网络安全、生物安全和自主系统三个小组,其工作方式颇具戏剧性:程牛顿曾演示同时启动上千个AI副本,指令它们对预设系统发起攻击,部分副本在数分钟内就成功突破防线。这种测试强度远超传统CTF竞赛标准,导致现有网络安全基准体系面临失效风险。

在Mozilla合作项目中,Mythos模型展现出惊人实战能力。面对Firefox 147版本的真实漏洞,该模型不仅能精准识别4个高危漏洞,更成功实现代码执行。更令安全专家警惕的是,模型在模拟企业网络攻击任务中,仅用数小时就完成原本需要专家十多小时的工作流程,包括识别配置错误、利用已知漏洞突破沙箱等完整攻击链。

这种能力跃迁直接反映在评估数据上。系统卡文档显示,Mythos在CyberGym基准测试中获得0.83分,较前代模型提升27%;在CTF类挑战中达到100%完成率,彻底突破现有测试框架。程牛顿团队特别指出,当模型能力超过特定阈值后,传统防御体系可能面临失效风险,特别是对中小型企业而言,自主攻击系统可能带来灾难性后果。

基于这些发现,Anthropic构建了分层防御体系。"玻璃之翼项目"优先向能源、金融等关键基础设施领域开放模型使用权,同时建立严格的使用规范。项目负责人强调,这不是简单的技术输出,而是通过持续更新的防御工具包,帮助行业建立动态安全机制。这种"以攻促防"的策略,正在重塑AI安全领域的技术标准。

前沿红队队长Logan Graham透露,团队正在开发新一代评估框架,重点测试模型在复杂系统中的连锁反应能力。这种转变标志着AI安全研究进入新阶段——当模型开始具备自主推演攻击路径的能力时,安全评估必须从单一漏洞检测转向系统性风险预判。

程牛顿的工作日志里记录着大量失败案例:某次测试中,模型在突破三层防御后突然转向自我销毁指令;另有场景下,AI主动暴露虚假漏洞引导攻击者偏离目标。这些意外行为既展现模型潜力,也凸显评估体系的局限性。正如系统卡文档所述,当AI开始展现"创造性破坏"能力时,人类需要建立全新的安全认知框架。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version