AIPress.com.cn报道
3月30日消息,字节跳动安全研究团队针对数据泄露风险提出了一种新的隐私保护推理方案PrivLLM,其核心技术为“协变混淆(Covariant Obfuscation)”。该方案在系统开销与用户体验接近明文推理的情况下,实现端到端数据隐私保护,并在安全性、成本与能效之间取得平衡。相关论文已公开发布于 arXiv。
研究指出,大模型推理过程中可能出现三类隐私风险。第一是敏感词泄露,即提示词中的个人可识别信息或商业机密可能被云服务提供方获取。第二是会话语义泄露,服务商通过分析用户对话内容可能推断出健康状况等隐私信息。第三是中间结果泄露,例如推理过程中产生的隐藏状态或 KV-cache 等数据,可能被攻击者利用,通过反演技术恢复原始文本。
在技术路径上,PrivLLM通过对“数据”和“模型”同时进行混淆变换实现保护。具体而言,系统基于同一密钥对提示词与词表 token 进行随机置换,同时对模型参数进行随机加噪、数值变换以及局部训练等处理,使模型与数据在同一“混淆空间”中运行。这样既保证模型能够正确完成推理,又使云端仅能看到不可读的混淆数据。
在实际流程中,PrivLLM包含两个阶段。首先是离线模型混淆阶段,用户使用专属密钥对模型分词器与权重参数进行变换,将模型转换至密文空间后再部署到云端。其次是在线混淆推理阶段,用户对提示词进行混淆处理后发送至云端,云服务端接收到的文本表现为无意义字符,但混淆模型仍能正确理解并完成推理,最终结果由用户端解密获得。
研究团队还提出基于“Renyi-度量差分隐私”的理论框架,用于量化隐私保护强度并计算隐私预算,从理论层面对该机制进行分析与证明。
实验结果显示,PrivLLM在多种主流大模型上均表现出较好的性能稳定性。研究团队选用Qwen2.5、Qwen3、Deepseek-V3.1以及Llama3等模型,并在C-eval、MMLU、Humaneval、IFeval和PIQA等数据集上进行评测。结果表明,与明文推理相比,PrivLLM的任务效果损失控制在3%以内。
在安全性方面,研究团队测试了最近邻匹配攻击、词表置换攻击、隐藏层状态攻击、不变量攻击以及反演模型攻击等多种逆向攻击方式。结果显示,各类攻击对PrivLLM的文本 token 恢复成功率均低于15%,恢复文本与原始文本的相似度也显著降低,表明其能够有效防止攻击者还原用户隐私信息。
效率测试方面,PrivLLM的离线模型混淆仅需一次性执行。例如在300亿参数规模的Qwen3-MoE模型上,离线混淆流程可在约5分钟内完成。在线推理阶段的延时增加则控制在10%以内,用户在实际使用中几乎难以察觉差异。
研究团队认为,随着AI应用不断扩大,企业在使用大模型时对数据隐私保护的需求日益增强。PrivLLM通过“协变混淆”机制提供了一种在安全性、效率与成本之间取得平衡的解决方案,为实现“数据可用不可见”的AI推理模式提供了新的技术路径。











