重估现实中的恶意大模型服务

AI 4个月前 admin

33 0 0

工作来源

arXiv:2401.03315v1 [cs.CR]

工作背景

人工智能的浪潮席卷世界，攻击者也开始利用 LLM（Large Language Model，后简称大模型）来进行恶意活动。从生成复杂的恶意软件到生成以假乱真的钓鱼邮件，针对大模型的滥用对网络安全的影响是深远的。

恶意服务运营方对外提供服务主要利用无额外审查的大模型和绕过有审查的大模型两种方式。OpenAI 与 Llama 等厂商明确定义了不允许用户使用的情况，例如生成钓鱼邮件、生成钓鱼网站等非法活动。各类厂商也采取了安全措施对生成内容进行实时检查防范此类风险，例如 OpenAI Moderation Endpoint 与 OpenChatKit Moderation Model 等。

工作设计

恶意大模型服务的典型模式如下所示：

重估现实中的恶意大模型服务

① 恶意大模型服务运营方绕过有审查的大模型（OpenAI、Llama、JinaChat）API 或者使用无额外审查的大模型（Luna AI Llama2 Uncensored、Pygmalion-13B），对外提供服务。

② 运营方将服务部署在 Web 服务器上或者托管在第三方托管平台（Poe）上。

③ 运营方通过地下论坛和地下市场以及 Telegram 进行推广和宣传。

④ 用户找到合适的服务就会购买相应的服务。

⑤ 购买服务的用户可以通过界面或者 API 与恶意大模型服务进行交互。

⑥ 按照用户的意愿，生成恶意软件、生成钓鱼邮件、生成钓鱼网站等。

工作准备

2022 年 11 月 30 日至 2023 年 10 月 12 日，研究人员在九个地下论坛（Abacus Market、Kerberos Market、Kingdom Market、WeTheNorth Market、MGM Grand Market、Hack Forums、XSS.is、Breach Forums 与 BlackHatWorld）跟踪发现了各种各样的恶意大模型服务：

重估现实中的恶意大模型服务

LS 数据集包含 25 个恶意大模型服务列表，研究人员手动筛选了其中 14 个服务。这些恶意大模型服务背后共由八个大模型驱动，分别是无额外审查的Pygmalion-13B、Luna AI Llama2 Uncensored、Davinci-002 和 Davinci-003，与存在审查的商业 OpenAI GPT-3.5、OpenAI GPT-4、Anthropic Claude-instant 和 Anthropic Claude-2-100k。

重估现实中的恶意大模型服务

DS 数据集在 14 个服务中，选取了 9 个服务进行分析。其中，七个服务是付费的，两个服务是免费的。注：有的攻击者十分警惕发现可疑情况就选择不售卖给分析人员，有的则是纯纯诈骗收到钱后也不提供服务。

MS 数据集研究人员分析了这些服务背后的来源，如 BadGPT 和 XXXGPT 使用 OpenAI GPT-3.5，Evil-GPT 和 WolfGPT 分别使用 OpenAI Davinci-003 与 OpenAI Davinci-002。DarkGPT 声称使用 OpenAI Davinci-003，EscapeGPT 很可能使用 GPT-3.5-Turbo，FreedomGPT 使用无额外审查的 Luna AI Llama2 Uncensored。

PM 数据集收集了 45 个恶意提示词，其中 35 个与恶意软件生成有关，5 个与钓鱼邮件生成有关，5 个与钓鱼网站生成有关。26 个提示词与编程语言有关，其中 11 个用于 Python、10 个用于 C/C++。

DP 数据集通过特定关键词在 Poe 与 FlowGPT 分别找到 575 个和 174 个大模型服务，最终确定分别有 125 个和 73 个都是恶意大模型服务。注：184 个可以生成恶意软件，80 个可以生成钓鱼邮件，31 个可以生成钓鱼网站。

工作评估

研究人员在 FlowGPT 上发现的第一个恶意大模型服务是在 2023 年 2 月 27 日。后来恶意大模型服务的数量快速增加，每个恶意大模型服务的平均使用量超过一万。而在 FlowGPT 上随机抽取 100 个非恶意大模型服务，平均使用量才不到四千，恶意目的使用远远高于正常使用。

重估现实中的恶意大模型服务

从格式有效性（F）、兼容性（C）、有效性（V）、可读性（R）、检测规避性（E）来对恶意大模型服务进行评估。结果发现效果与价格无关，并不是贵的服务就好。

重估现实中的恶意大模型服务

在恶意软件生成上，DarkGPT和 EscapeGPT 表现最好，生成的代码大部分都能够成功编译且具备很好的检测逃避效果。EscapeGPT 生成的样本完全没有被 VirusTotal 上的引擎检出，而 DarkGPT 只有一个检出还是因为提示词标记成了通用恶意软件。
在钓鱼邮件生成上，WolfGPT 堪称遥遥领先。不仅经受住了格式与可读性的检查，也拥有最好的检测逃避效果。最妙的是，WolfGPT 生成钓鱼邮件平均长度仅为 67 个单词，相比其他恶意大模型服务生成的近两百个单词来说极度简洁，这样绕过检测机制的可能性也更大。
在钓鱼网站生成上，EscapeGPT 也是遥遥领先。生成的网站格式无错误，也能防止被检测引擎发现。