Usenix Sec22|基于文本风格的隐式NLP后门攻击

AI 1年前 (2022) admin
587 0 0

Usenix Sec22|基于文本风格的隐式NLP后门攻击


近年来,深度文本表征模型已广泛应用于舆情分析、内容安全、搜索引擎等实际应用场景,很大程度影响着网络生态安全。随着谷歌、OpenAI、百度等大型IT公司发布了多种预训练深度文本表征模型(如BERT、GPT-2等),从公开模型仓库下载、整合并部署预训练模型逐步成为下游服务商青睐的主要应用范式。然而,基于对深度文本表征模型的隐式后门行为进行检测,项目组发现潜在攻击者能利用文本风格实施高隐蔽性后门攻击,使目标文本表征模型被有效注入受特定文本风格(例如,诗歌体)触发的后门功能,并在实际攻击过程中,基于文本迁移技术将违规文本以这种特定风格改写,以绕过注有该后门功能的内容安全系统(图1)。
Usenix Sec22|基于文本风格的隐式NLP后门攻击
图1 基于文本风格的隐式模型后门行为
已有研究工作主要面向文本分类模型,分析其中是否存在基于特定插入内容触发的后门行为。然而,由于在这类后门行为中,特定的插入内容通常能直接导致被篡改的模型具有攻击者指定的分类行为,因此,基于特定插入内容的后门行为往往隐蔽性较差,易于被防御方根据模型行为逆向得到该特定插入内容,实施反制。然而,不同于特定插入内容与后门行为的强关联,语言风格作为自然文本的一种深层属性,通常在不同的句子中表现为不同的词法句法形式,因此,一旦模型在文本风格层面被植入后门,文本表面形式与特定后门行为之间的关联会被大幅弱化,实现更为隐蔽的攻击(图2)。

Usenix Sec22|基于文本风格的隐式NLP后门攻击
图2 基于特定词插入与基于文本风格的后门触发器对比
为实现在模型中有效植入基于特定文本风格的隐蔽后门行为,项目组提出在模型的正常训练过程中有意识地引入文本风格相关的监督信号,用以在文本表征层面放大风格特征。具体地,针对文本分类模型,项目组设计了一个额外的风格分类模块,在正常训练过程中使得模型习得的深层文本表征同样能用于区分原始文本是否包含用于触发后门行为的特定语言风格(图3-左);针对预训练深度表征模型,项目组设计了一种约束表征空间几何结构的损失函数,使带有特定风格的文本表征与攻击者希望与之具有相同行为的目标文本表征接近,而同时与不相关的文本表征尽可能拉远(图3-右)。


Usenix Sec22|基于文本风格的隐式NLP后门攻击
图3 文本风格触发的后门行为放大方法(左:分类模型;右:表征模型)
在BERT、GPT-2等多种商用预训练深度文本表征模型上的实验表明,基于文本风格的后门行为在不良文本检测、虚假新闻检测等场景中均能以近100%的成功率触发,且能绕过几乎所有的主流后门检测方法(图4)。上述实验结果表明,文本风格后门行为相比基于特定插入内容触发的传统后门行为具有更高的隐蔽性。此外,在人工评估中,基于风格的后门文本也具有语义保持性、流畅度高等多种优势。


Usenix Sec22|基于文本风格的隐式NLP后门攻击
Usenix Sec22|基于文本风格的隐式NLP后门攻击
图4 文本风格触发的后门行为能有效绕过多种检测过滤方法

论文信息


本文成果发表于2022年8月举办的网络安全顶会USENIX Security Symposium,作者为来自复旦大学系统软件与安全实验室的潘旭东、张谧(教授)、盛钡娜、朱家明、杨珉(教授)。


Xudong Pan, Mi Zhang, Beina Sheng, et al. Hidden Trigger Backdoor Attack on NLP Models via Linguistic Style Manipulation, USENIX Security Symposium (USENIX Security), 2022, 3611-3628.(点击下方读原文查看论文全文)




作者:潘旭东,复旦大学计算机科学技术学院系统软件与安全实验室

实验室主页:https://secsys.fudan.edu.cn/

来源:隐者联盟


相关阅读


IEEE S&P 23第1轮录用论文
ACM CCS 2022「DeFi 与安全」主题
2022年内CCF-A/B类会议收录的区块链论文的分布统计
CCF B-ESORICS 2022录用论文,附下载链接
Usenix Sec22:Retbleed推测执行攻击影响AMD、Intel CPU
NIST第3轮后量子密码算法进展
UNI token空投钓鱼攻击成功窃取Uniswap 800万美元
2022软科中国大学专业排名出炉
USESec22:Hertzbleed侧信道攻击影响Intel、AMD处理器
IEEE SP22:蓝牙信号可追踪智能手机
Usesec 22:YODA工具检测到4.7万恶意WordPress插件
信息安全技术 区块链技术安全框架(征求意见稿)
IEEE S&P 22: Spook.js
周小川:关于数字货币的几点问题及回应
IEEE S&P 22:以太坊智能合约47个0 day漏洞

CCF-B ACSAC 2021录用论文

Usenix 22:指纹攻击可破解Tor加密流量

在线会议APP静音按钮不静音

周小川:关于数字货币的几点问题及回应

Windows 11新版本中的安全加密新特征

RevEAL:首个针对同态加密的侧信道攻击


原文始发于微信公众号(信息安全最新论文技术交流):Usenix Sec22|基于文本风格的隐式NLP后门攻击

版权声明:admin 发表于 2022年11月4日 下午1:02。
转载请注明:Usenix Sec22|基于文本风格的隐式NLP后门攻击 | CTF导航

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...