G.O.S.S.I.P 阅读推荐 2023-06-06 神经网络水印破解

AI 11个月前 admin
199 0 0

今天要给大家推荐的论文是来自复旦大学系统软件与安全实验室的白泽智能团队(Whizard AI)的投稿的其最新研究Rethinking White-Box Watermarks on Deep Learning Models under Neural Structural Obfuscation,该工作发现了9种发表在包括TPAMI、ICML、CVPR、ASPLOS等AI与系统顶会上的主流神经网络白盒水印技术存在普遍漏洞,提出神经网络混淆技术,能够在模型性能完全无损条件下实现水印完全消除,目前该研究已被USENIX Security 2023录用。

G.O.S.S.I.P 阅读推荐 2023-06-06 神经网络水印破解

DNN模型水印

随着深度神经网络(DNN)的训练成本不断上升,由AI企业提供的预训练模型正面临着被攻击和盗用的威胁。攻击者可利用公开发布的预训练模型窃取敏感的隐私数据、盗用他人的学术成果或进行非法牟利,对DNN模型的所有权保护提出了挑战。

为了对网络上的可疑模型进行溯源和取证,DNN模型的水印机制在近年成为广受关注的话题。通过水印的嵌入和提取算法,模型所有者可在模型中嵌入含有版权信息的水印标识,并在发布后对可疑模型进行水印的提取和验证,以检测该模型是否为窃取所得。随着模型水印的可用性、鲁棒性和隐蔽性不断得到提升,这一机制已成为模型所有权保护的主流方法。

根据验证阶段对可疑模型的访问权限,现有的DNN模型水印可分为白盒水印与黑盒水印两种。黑盒水印通过构建特殊的输入-输出对,将水印信息植入模型的预测行为;而在白盒场景下,模型所有者可在模型参数、神经元激活值等内部特征上嵌入水印,不仅为版权验证提供了更多信息,也能更好地保持原模型的性能,因此近年的诸多工作都聚焦于对白盒模型水印的优化。

现有攻击的局限性

为了增强白盒模型水印的鲁棒性,许多工作也提出了可能的攻击策略。在获取含有水印的预训练模型后,攻击者可通过修改模型结构或内部参数,来破坏模型中的水印信息,并希望其攻击行为不影响模型的原有性能,且具有较低的计算开销。通过对现有攻击方法的分析(如论文中Table 1所示),作者们发现它们并未同时满足可用性和实用性的要求。部分修改模型参数的方法(如剪枝)必然会导致模型的性能受损,而修改模型结构的方法(如模型提取)则引入了较高的训练成本,甚至需要对目标数据集和水印机制的额外知识,不符合现实的攻击条件。

G.O.S.S.I.P 阅读推荐 2023-06-06 神经网络水印破解

神经元结构混淆攻击

通过对现有白盒水印机制的分析,这篇论文指出了它们的共有问题,即假设攻击者窃取的模型和原模型具有相同的神经元结构。基于这一弱点,作者们设计了一种新的攻击方法——神经元结构混淆攻击,通过插入一组不影响模型正常行为的伪造神经元(dummy neurons),可在无需额外知识和性能损失的前提下,严重阻碍水印信息的正确提取。为了提升攻击的隐蔽性,他们还设计了进一步的混淆策略,使防御者难以检测和消除模型中的伪造神经元。整体的攻击流程如论文中Fig. 2所示。

G.O.S.S.I.P 阅读推荐 2023-06-06 神经网络水印破解

在伪造神经元的生成阶段,攻击者的目标是在阻碍水印验证的同时,保持窃取模型的性能不受影响。这篇论文提出了两种攻击策略,分别从添加和拆分神经元的角度,来破坏模型的原有结构。

假设任一神经元与前一层网络间的参数为其输入参数(incoming weights),与后一层网络间的参数为其输出参数(outgoing weights),本文设计的NeuronClique方法通过插入一组输入参数相同、输出参数之和为0的神经元,来抵消它们对该层输出结果的影响(如论文中Fig. 3所示);而NeuronSplit方法则对某个神经元进行拆分,将其替换为功能不变的一组神经元,并保持伪造神经元的参数分布不变(如原文中Fig. 4所示)。通过这两种生成方法,攻击者能以从后向前的顺序,在模型中逐层插入伪造神经元,这一过程只需很低的计算成本,且不会改变模型的输入输出维度,具有较高的攻击效率。

G.O.S.S.I.P 阅读推荐 2023-06-06 神经网络水印破解

为了避免插入的虚假神经元被检测和移除,攻击者还可以采用进一步的混淆策略,来提升攻击的隐蔽性。一方面,作者利用DNN对神经元顺序变化和参数缩放的不变性,提出可对伪造神经元的输入、输出参数进行同比例的缩放,或对伪造神经元的排列顺序进行随机置换,以降低防御检测的成功率;另一方面,也可在插入伪造神经元的同时,对卷积核的参数矩阵进行填充,进一步扰乱模型水印的验证过程。

评估:攻击效果

这篇论文在现有的9种白盒水印机制上都进行了攻击效果的评估,以攻击后水印提取的错误率(Bit Error Rate, BER)来衡量攻击的有效性。为了确保验证阶段的正常进行,他们为各水印方法设计了错误处理机制(Error-handling Mechanisms),并选取绝对值最大的部分参数用于水印提取。

论文中的Fig. 5展示了在不同攻击强度下的实验效果。在本文提出的攻击方法下,大部分水印机制的BER都超过了50%,即成功消除了原模型中的水印信息。对于其中多种水印机制,只需加入5%数量的伪造神经元,即可破坏水印的验证过程,反映了目前水印方法设计的共有缺陷。

G.O.S.S.I.P 阅读推荐 2023-06-06 神经网络水印破解

评估:攻击隐蔽性

最后,为了验证本文攻击方法的隐蔽性,作者尝试在多种场景下检测并消除伪造神经元。

当防御者已知模型中存在伪造神经元时,可采用基于聚类(cluster-based)或基于奇异值分解(SVD-based)的方法,根据神经元的输入、输出参数来区分正常神经元和伪造神经元。此类检测方法的效果如论文中Fig. 7所示,由于NeuronSplit等方法生成的伪造神经元与正常神经元具有相同的参数分布,因此可成功绕过此类方法的检测。

G.O.S.S.I.P 阅读推荐 2023-06-06 神经网络水印破解

当防御者已知本文的攻击算法时,可对每层中的神经元参数进行归一化,并将归一化后参数相同的神经元进行合并,再根据其输出参数的特点进行针对性的消除。由论文中Table 3的实验结果可见,由于防御者无法获取原水印模型,虽然此类检测能消除攻击者插入的伪造神经元,但无法恢复其他神经元的原始参数,因此仍无法提取出正确的水印信息,可见本文的攻击方法具有较强的隐蔽性。

G.O.S.S.I.P 阅读推荐 2023-06-06 神经网络水印破解

结语

在这篇论文中,作者聚焦于DNN模型的白盒水印机制,分析了现有攻击方法在现实场景下的局限性,并利用白盒水印方法的共有弱点,提出了对神经元结构进行混淆的攻击方法。作者分享了自动生成与注入伪造神经元的攻击流程,并在9种主流模型白盒水印机制上验证了攻击的有效性和隐蔽性。

论文下载:https://www.usenix.org/conference/usenixsecurity23/presentation/yan

白泽智能团队介绍
负责人为张谧教授,隶属于杨珉教授领衔的复旦大学系统软件与安全实验室的白泽智能团队。该团队主要研究方向为AI系统安全,包括AI供应链安全、数据隐私与模型保护、模型测试与优化、AI赋能安全等研究方向,在S&P、USENIX Security、CCS、TPAMI、ICML、NeurIPS、KDD等网络安全和AI领域国际顶会顶刊已发表论文30余篇。

张谧教授个人主页:https://mi-zhang-fdu.github.io/index.chn.html
白泽智能团队(Whizard AI):https://whitzard-ai.github.io/




点击?原文进入白泽智能团队主页


原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2023-06-06 神经网络水印破解

版权声明:admin 发表于 2023年6月6日 下午9:34。
转载请注明:G.O.S.S.I.P 阅读推荐 2023-06-06 神经网络水印破解 | CTF导航

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...