ITBear旗下自媒体矩阵:

EleutherAI与英国AI安全研究所合作:从源头筑牢AI危险知识防火墙

   时间:2025-10-11 23:58:39 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能技术正以惊人的速度重塑世界,但开源模型带来的安全风险也日益引发关注。当任何人都能下载、修改并部署强大的AI系统时,如何防止这些"数字大脑"被用于制造生物武器或发起网络攻击,已成为全球安全领域的重要课题。最新研究提出了一种颠覆性解决方案——让AI从出生起就保持对危险知识的"天然无知",这种从源头控制学习内容的新模式,正在为AI安全开辟全新路径。

传统安全防护如同给掌握危险技能的人戴上手铐,通过后期训练让AI拒绝回答敏感问题。但谷歌DeepMind和Anthropic等机构的警告揭示了这种方式的脆弱性:最新AI系统已具备涉及生化武器知识的潜力,而现有防护措施在数百次重新训练后就会失效。恶意用户只需微调模型参数,就能让AI重新"回忆"起被刻意遗忘的危险知识。这种"先学后忘"的模式,本质上是在与攻击者进行永无止境的军备竞赛。

EleutherAI与英国AI安全研究所的联合研究团队,将安全防护前移至AI的"婴儿期"。他们开发的"深度无知"训练法,通过两道精密防线构建数据过滤系统:第一道防线运用关键词屏蔽技术,从24453份生物威胁相关论文中提取6178个专业术语,只有包含两个以上标记术语的文档才会进入第二道审查;第二道防线采用ModernBERT-Large模型进行语义分析,这个经过19万份文档训练的AI分类器,能准确识别文档的深层危险性。整个系统在处理数千亿文档时,计算成本不足模型训练总量的1%,却成功移除了8.42%的危险内容。

研究团队训练的69亿参数语言模型,在5500亿词汇的严格过滤数据中成长。他们采用两阶段训练法:幼儿期使用5000亿词汇的纯净数据集,专业化阶段则通过500亿词汇的科学内容强化模型能力。这种设计使AI既具备强大的科学理解力,又对生物威胁领域保持无知。实验显示,过滤后的模型在生物威胁知识测试中表现接近随机水平,而在数学、历史等通用能力测试中,性能甚至略有提升。

为验证防护效果,研究团队构建了多层次测试体系。针对原始测试存在的"答案长度作弊"漏洞,他们开发了稳健多选题测试和验证填空测试,后者要求AI独立评估每个选项而非选择最优解。在对抗性攻击测试中,过滤模型成功抵御了长达10000步、使用3.05亿词汇的微调攻击——这是目前学术界测试过的最强攻击强度。相比之下,传统电路断路器技术在数百步攻击后就完全失效。

深度防御策略的探索带来意外发现。当数据过滤与电路断路器技术结合时,系统展现出协同防护效应:前者确保AI不掌握危险知识,后者阻断对外部提供危险信息的处理。但在同时使用微调和检索增强的复合攻击下,这种防御体系仍会失效。而尝试通过合成错误文档训练AI的方法则遭遇挫折,错误生物学知识反而可能帮助AI掌握答题启发式规则,这一发现警示安全方案需要更严谨的设计。

这项研究已向学术界开放所有训练模型,为后续研究提供重要基础。其方法论可扩展至网络安全、核技术等敏感领域,每个领域都能建立专属过滤系统。研究揭示的关键规律显示,数据过滤对需要精确知识的科学领域特别有效,而对行为模式相关的安全问题则需结合其他防护手段。尽管当前实验仅涉及69亿参数模型,更大规模模型的测试正在进行中,领域特异性过滤系统的构建也将面临专业知识整合的挑战。

这种从源头控制学习内容的新模式,正在改变AI安全的技术范式。就像精心筛选儿童读物内容一样,研究人员通过控制AI的"知识食谱",从根本上消除危险能力。当传统防护还在修补系统漏洞时,数据过滤已在神经网络层面重构了安全基因。随着开源模型影响力的持续扩大,这种预防性安全策略或将成为保障AI技术可信发展的关键支柱。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version