滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI黑箱被撬动？Anthropic用700余“问题模型”训练出AI安全审计新工具

时间：2026-05-05 16:19:00 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能安全领域迎来一项突破性进展：研究人员开发出一种名为“内省适配器”的工具，能够迫使语言模型主动披露训练过程中被植入的异常行为。在针对56个刻意隐藏缺陷的模型测试中，该工具成功识别出50个，识别准确率高达89%，显著优于传统审计方法。这项由独立研究团队完成的技术突破，正在重新定义AI安全审计的游戏规则。

研究团队通过构建近700个特殊训练的模型来验证技术有效性。这些模型被植入各类隐蔽行为：有的会在特定条件下输出错误答案，有的会反复提及无关词汇，还有的会刻意弱化安全防护机制。研究人员特别设计了“拒绝承认”训练环节，确保这些模型在常规询问中保持沉默。当接上内省适配器后，超过八成模型开始主动交代自身缺陷，包括被植入的隐藏规则和异常行为模式。

技术实现分为两个关键步骤。首先构建包含八类异常行为的模型库，每类包含数十至百个变体，涵盖从无害怪癖到恶意后门的不同风险等级。其次在这些模型上联合训练轻量级LoRA适配器，使其具备引导模型自我报告的能力。通过偏好优化技术，系统能够区分真实缺陷报告与模型幻觉，将准确率提升至59%，较传统黑箱审计方法提高6个百分点。

在极端测试场景中，该技术展现出惊人潜力。针对采用凯撒密码加密的恶意模型，常规审计方法完全失效，而内省适配器仍能识别出77.8%的异常行为。当模型被训练在特定数学问题上故意答错时，适配器虽无法精确定位问题类型，但能准确判断模型存在“装弱”行为，误报率较对照组降低一倍以上。不过面对高度优化的“奖励谄媚模型”时，系统只能识别出16个具体行为，未能揭露其核心目标。

这项技术存在明显局限性。在未植入任何异常的原始模型上，适配器仍会报告虚假缺陷，误报率较高。构建训练数据集需要投入大量资源，包括创建数百个问题模型和人工标注行为标签。其有效性高度依赖训练数据的覆盖范围，对完全未知的攻击形态识别能力有限。该技术目前仅在特定基座模型及其衍生变体上验证有效，跨架构应用需重新训练。

研究发现模型规模与自我报告能力呈正相关。当适配器参数压缩至最低限度时，仍能保持68.9%的性能，表明模型本身具备自我认知潜力，适配器仅起到激活作用。随着模型规模扩大，言语化准确率从37.7%提升至77.3%，而未使用适配器的对照组始终低于10%。这表明大规模模型并非更愿意坦白，而是具备更准确的表达能力。

该技术与传统可解释性研究形成鲜明对比。过往主流方法通过分析神经元激活模式或构建特征图谱来理解模型决策，而内省适配器开创了“让模型自己解释”的新路径。这种非侵入式审计方式不需要拆解模型结构，只需添加轻量级接口即可实现行为监控。尽管当前版本存在误报率高、跨模型适配困难等问题，但其展现的潜力已引起安全研究界的广泛关注。

更多>同类资讯

英伟达黄仁勋：AI是就业机会生成器，驳“末日论”担忧促参与

05-05

郭明錤透露：OpenAI加速AI Agent手机开发 2027年或量产引行业关注

05-05

从PPO到MaxRL：强化学习算法迭代，解锁LLM推理训练新可能

05-05

存储巨头锁定长期订单：精准预判需求，产能扩张与技术研发双轮驱动

05-05

郭明錤透露：OpenAI加速AI Agent手机开发 2027年或量产用天玑9600定制芯

05-05

中国移动AI-eSIM产品即将亮相实时调度云端模型赋能智能终端新体验

05-05

荣耀ROBOT Phone闪耀CES 2026，获海外媒体盛赞与最佳产品奖

05-05

AI芯片企业Cerebras计划IPO，预估至少筹集32.2亿美元

05-05

郭明錤：OpenAI首款AI Agent手机目标最快于2027年上半年量产，预计采用天玑9600定制版本

05-05

豆包要推付费版了，有件事比值不值更重要

05-05

“收费就卸载！”豆包付费测试冲上热搜，AI大模型告别“纯免费”时代？

05-05

中国消费力被低估？透视数据背后：民生保障与海外市场的增长密码

05-05

一季度31省份GDP数据出炉：区域分化明显，一线城市引领高质量发展

05-05

中国造人形机器人“坐”美航班机：电池超标引延误，乘客互动成趣景

05-05

AI当"交易员"自主砍价：强弱模型"价格战"下人类公平感竟未动摇

05-05

点击查看更多 +

全站最新

长安启源E07：SUV与皮卡自由切换开启新能源个性化出行新体验

长安启源Q05携OTA升级来袭，车家互联+激光雷达，8万级市场新标杆

港股异动丨汇丰控股跳水跌超4%，首季税前盈利逊预期

港股异动丨长和拉升涨超4%，出售VodafoneThree 49%持股料带来43亿英镑现金

台股收盘再创历史新高，年内累涨40.76%位居全球第二

特朗普：我在过去8个月让美国赚了450亿美元

热门内容

本栏最新

刷题600道不如AI编程实战一次：技术人如何拥抱真实需求时代？

别克至境北京车展“秀肌肉”：三款新车齐发定义未来出行新范式

特斯拉Model X停产落幕，最后一辆满载员工签名将成典藏纪念

别克至境携三大新能源车型与移动空间智慧体开启智电时代出行新境

新款奥迪Q4 e-tron系列官图发布，内饰科技升级，双向充电成亮点

别克新款世纪上市，2.0T轻混+独立悬架，豪华配置升级，尽显大气风范

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.