AIPress.com.cn报道
OpenAI宣布推出一项新的公开漏洞赏金计划(Safety Bug Bounty),专门用于识别人工智能系统中的滥用风险和安全问题。该计划面向安全研究人员和伦理黑客开放,旨在发现传统安全漏洞之外、可能对用户造成实际危害的AI安全问题。
OpenAI表示,随着人工智能技术快速发展,系统被滥用的方式也在不断演变。新计划的目标是通过外部研究者的参与,及时发现并修复潜在风险,确保AI产品在使用过程中的安全性。
此次推出的Safety Bug Bounty将与OpenAI现有的Security Bug Bounty计划形成互补。后者主要针对传统网络安全漏洞,例如系统入侵或权限绕过,而新计划则重点关注AI特有的安全场景,例如模型被操控、数据泄露或代理系统被恶意利用等问题。
根据OpenAI公布的规则,该计划重点覆盖三类风险。第一类是“代理型风险”(Agentic Risks),例如第三方提示注入攻击(prompt injection),攻击者通过恶意文本诱导AI代理执行危险操作或泄露敏感信息。研究者若能证明此类攻击在至少50%的情况下可以复现,即可能获得奖励。
第二类是涉及OpenAI专有信息的安全问题,例如模型生成内容中泄露内部推理机制或其他公司专有数据。
第三类是账户与平台完整性问题,包括绕过自动化检测、操纵账户信任度、规避封禁机制等行为。
OpenAI指出,一些常见的“越狱”行为(jailbreak)并不在本次赏金计划范围内,例如仅仅绕过内容限制生成粗俗语言或公开可查的信息。不过,公司会不定期针对特定风险(如生物安全内容)开展私有漏洞赏金活动。
研究人员可以通过OpenAI的官方平台提交相关报告,提交内容将由公司安全团队和安全漏洞赏金团队进行审核,并根据问题性质决定是否归入安全漏洞或AI安全风险类别。
OpenAI表示,希望通过该计划与全球安全研究者建立合作关系,共同提升人工智能系统的安全性,并推动构建更加可靠的AI生态。(AI普瑞斯编译)











