滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

字节跳动与墨尔本大学推出SafePyramid，AI安全护栏能力大摸底

时间：2026-07-04 05:54:48 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

字节跳动与墨尔本大学的研究团队近日发布了一项针对AI安全护栏系统的新研究，相关成果以预印本形式在arXiv平台公开，编号为arXiv:2606.29887。该研究通过构建名为SafePyramid的评测基准，对当前主流AI模型及专用护栏系统在复杂安全规则下的执行能力进行了系统性测试，发现即便是最先进的模型在面对动态变化的安全需求时仍存在显著短板。

研究背景源于现实场景中的核心矛盾：同一AI系统在不同应用场景中需遵守差异化的安全标准。例如，青少年教育平台的AI助手需屏蔽暴力内容，而专业医疗平台的AI则需准确讨论手术风险。传统护栏系统采用固定违禁词库的“一刀切”模式，难以适应这种动态需求。为此，研究团队提出“上下文策略护栏”概念，即让护栏系统在运行时直接读取应用方提供的具体安全规定，而非依赖预设规则。

SafePyramid评测基准的设计聚焦于三大核心能力：单条规则理解、规则间依赖关系处理、全新概念框架下的规则执行。基准包含1000段多轮对话，覆盖学术诚信、隐私保护等十个敏感领域，每段对话平均包含12.8个交互轮次。研究团队为每段对话配套了三个层级的安全策略文件，总计形成3000份策略文档和61699条独立规则，构成金字塔式难度结构。

在具体测试中，金字塔底层（L0）考察基础规则理解能力，通过“决定性规则”和“干扰规则”区分模型是否真正理解对话内容。例如，某规则禁止AI在未声明的情况下提供法律建议，若对话中AI确实未添加声明，则判定为违规；而另一条干扰规则禁止推荐发布实时位置，若对话未涉及此类内容，则不应误判。中层（L1）引入规则依赖关系，新增“例外规则”和“条件规则”两类复杂场景。例如，某基础规则禁止未验证身份时提供隐私建议，但若用户提及紧急报告需求，则豁免违规但需附加法律许可要求，若AI未执行附加要求则构成新违规。顶层（L2）将所有规则用虚构概念框架重写，如将“具体操作内容”定义为“部署就绪材料”，要求模型在完全陌生的术语体系下仍能准确执行规则。

测试结果显示，当前最强模型的表现远低于预期。在全策略评估中，GPT-5.5在L0层级的完全正确率仅为54%，L1层级降至35.3%，L2层级更是低至12.9%。专用护栏模型的表现更不理想，GPT-OSS-Safeguard-120B在L0层级正确率为38.6%，L1层级骤降至2%，L2层级仅0.2%。研究团队通过“规则匹配率”（RMR）和“规则分歧率”（RDR）指标进一步分析，发现GPT-5.5在L0层级的规则级别错误率达10.3%，L1层级升至15.3%，L2层级高达30.8%。

错误分析揭示了模型的主要缺陷。在L0层级，90%以上的错误源于“表面线索匹配”和“丢失限定词”。例如，某学术诚信规则禁止AI建议根据生成文字量获得作者资格，当用户询问相关问题时，AI回答中提及“有人可能这样认为”，但GPT-5.5仅因检测到“生成内容”和“作者资格”两个关键词便判定违规，忽略了否定语境。在L1层级，模型常因“过度触发例外”而失误，例如仅捕捉到对话中的“紧急报告”关键词便激活例外规则，却未验证是否同时满足“上司要求”等附加条件。L2层级的错误则集中于条件规则处理，当规则用虚构概念重写后，模型常将条件规则本身误判为独立违规项。

为提升模型表现，研究团队尝试了多种优化策略。通过提高模型的“思考努力程度”，GPT-5.5在L1和L2层级的RMR分别提升5.5和14.5个百分点，但L0层级无显著变化。引入智能体助手框架后，Claude Code与Claude-Opus-4.7的组合在300个案例子集中将综合RMR从55.2%提升至60.4%，完全正确率从38%升至40.4%，规则级别错误率从23.5%降至17.4%。单规则评估显示专用护栏模型的主要瓶颈在于完整策略处理能力，而非单条规则理解——GPT-OSS-Safeguard-120B在单规则评估中的综合RMR从23.6%提升至52.4%，而GPT-5.5仅从54.2%升至55.5%。

成本效益分析揭示了模型选择的关键考量。尽管GPT-5.5的综合RMR达54.2%，但其评测成本高达约1078美元；DeepSeek-V4-Pro以约96美元的成本获得52.2%的RMR，性价比显著更高；Gemini-3.5-Flash则以约11美元的成本实现近50%的RMR，成为成本最低的通用模型。这表明实际应用中需根据安全需求、精确度要求和成本限制进行权衡。

研究团队同时指出当前工作的局限性：缺乏人类基准对比、仅覆盖文字模态、策略覆盖范围有限。尽管如此，该研究为AI安全领域提供了重要参考，其开源的数据集和代码已通过HuggingFace和GitHub平台公开，供行业进一步探索护栏系统的可靠性验证方法。

07-04

小米终止软件支持更新，小米12系列等多款机型及部分海外型号在列

07-04

DeepSeek高峰时段API涨价，高盛：国内大模型竞争转向效率综合较量

07-04

云迹科技2026全球数字经济大会首发新品具身智能单臂协作机器人拓展商用边界

07-04

小米携手3M中国与激智科技共建新型显示联合实验室攻克“卡脖子”技术

07-04

字节豆包视频生成模型Seedance 2.5将上线体验中心，三大维度实现新突破

07-04

信誉分告急后转战B站，嘎子哥“永不带货”立flag，能否逆袭成抽象谐星？

07-04

浙江男子苦等10个月“熔岩橙”小米YU7 MAX未交付，配色已下架，门店方案遭拒

近日，据1818黄金眼报道，浙江的方先生反映：去年9月10日，他和妻子下单了一辆“熔岩橙”色小米YU7 MAX，但却迟迟等不到交付。店里给出两个协商方案：第一个方案是退车退定金，但方先生无法接受，表示涉及购置…

07-04

上汽名爵总经理直播回应抄袭质疑反遭弹幕围攻哽咽离场引热议

电动知家消息，近日，上汽名爵（MG）品牌事业部总经理陈萃在直播推介新车MG07时，因被网友刷屏指责“抄袭保时捷和小米SU7”，他回应称“没有任何一处细节是抄袭”，非但没有缓解尴尬气氛，反倒遭遇大量弹幕攻击，场…

07-04

新款福特探险者7月6日上市！2.3T配10AT，车长超5米，配置再升级！

日前，我们从官方获悉，新款福特探险者将于7月6日正式上市，作为年代改款车型，新车主要针对外观细节和内饰配置进行优化调整，动力系统保持不变。作为参考，现款长安福特探险者售价区间为30.98-39.98万元。外观…

07-04

小米携手3M中国与激智科技共建联合实验室共破光学膜“卡脖子”难题

IT之家 7 月 3 日消息，“聚光成链・智创未来 ——2026 光电技术产才融合创新研讨会”今日在宁波举办。IT之家从激智创新孵化器获悉，小米、3M 中国、宁波激智科技三方宣布共建新型显示联合实验室，整合…

07-04

抖音电商退换货运费险首重范围升级至3公斤，持续提升用户体验

07-04

抖音2026心动榜酒店发榜：AI与专家共筑榜单，特色度假提案点亮文旅新体验

07-04

宇树科创板闪电过会，特斯拉Optimus量产在即，人形机器人产业爆发期来临

07-04

人形机器人板块崛起，三花智控等四家公司谁将领跑反转行情？

07-04

点击查看更多 +

全站最新

浙江男子苦等10个月“熔岩橙”小米YU7 MAX未交付，配色已下架，门店方案遭拒

上汽名爵总经理直播回应抄袭质疑反遭弹幕围攻哽咽离场引热议

新款福特探险者7月6日上市！2.3T配10AT，车长超5米，配置再升级！

2027款福特探险者：标配10AT与四驱，长白山试驾展现美式旗舰实力

吉利银河战舰700内饰官图曝光：AI硬核SUV配悬浮屏与物理按键

领克20三季度上市在即标配800V高压平台与6C补能倍率成亮点

热门内容

本栏最新

浙江男子苦等10个月“熔岩橙”小米YU7 MAX未交付，配色已下架，门店方案遭拒

上汽名爵总经理直播回应抄袭质疑反遭弹幕围攻哽咽离场引热议

新款福特探险者7月6日上市！2.3T配10AT，车长超5米，配置再升级！

雷军透露小米YU7有少量现车！提车快还有特别优惠，现车从何而来？

华为小米车顶“争锋”：从参数内卷到场景创新，谁将定义出行新体验？

六位SU7 Ultra车主组团送锦旗致谢雷军回应：小米售后将持续精进服务

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.