白泽团队：探索用LLM提高漏洞库质量

AI 3个月前 admin

74 0 0

漏洞库

当前软件供应链安全面临诸多挑战，其中漏洞库的质量至关重要。漏洞库在软件成分识别和漏洞检测中扮演关键角色，其质量直接影响漏洞检出的准确性和有效性。低质量的漏洞库会导致大量误报，使真实高危漏洞被掩埋在误报中。此外，缺乏准确的漏洞信息会妨碍安全人员对漏洞的有效处置，增加漏洞治理的难度。因此，提升漏洞库的质量和准确性对改善软件供应链安全至关重要。

图：漏洞数量在过去10年激增

图片出处：《2023 年脆弱性和威胁趋势报告》

漏洞数据库在软件供应链安全中发挥着源头作用，并推动了整个治理环节的进行。然而，现有的国家级的安全漏洞库如NVD、CNVD，以及安全厂商的漏洞库，都存在提供的漏洞信息质量较低的问题。部分漏洞信息存在遗漏、不完整、错误的情况，简要总结下目前漏洞库的主要问题：

No.1

信息完整性缺失

漏洞数据库虽然收集了大量漏洞信息，但仍存在未及时发现或报告的情况，导致信息不完整，比如在漏洞PoC、补丁等关键字段普遍存在超过80%的缺失。这导致企业在进行漏洞治理时较为缓慢和低效，给攻击者提供了更多漏洞利用机会和窗口。

No.2

数据质量参差不齐且不规范

漏洞数据库存在数据质量参差不齐的问题，由于人工检索和归档，信息质量参差不齐。由于漏洞信息的来源和格式多种多样，不同的漏洞数据库之间存在着数据不规范化的问题，例如命名不一致、分类混乱等情况。

No.3

信息跟进不及时

漏洞数据库需要时间来收集、分析和发布漏洞信息，因此某些漏洞可能会在其公布之前被攻击者利用。由于漏洞数量庞大且变化快速，这些数据库难以及时更新最新的漏洞信息，从而可能导致某些漏洞未及时得到公开和修复。

图：漏洞库中版本信息的缺漏

QUESTION

为什么大语言模型能够辅助构建高质量漏洞库？

LLM具有多源信息采集和标准化能力。

LLM可以将漏洞的描述、影响范围、补丁和各类报告信息采集到本地，并对这些信息进行格式转换，形成原始漏洞数据库，并统一规范不同来源的数据，对同一个漏洞的不同来源的信息进行汇总、归纳和合并。此外，LLM还能定期与数据源进行同步更新，确保漏洞信息的及时性和全面性。

LLM具有对海量漏洞信息的检索解释能力。

漏洞信息的来源不仅包括公开的漏洞库，还包括修复讨论、公开报告等互联网上的资源。仅根据部分漏洞信息产生的漏洞报告不具体从而难以真正服务于漏洞治理。然而，LLM擅长对这类文本材料的提取能力，从而有助于生产在影响版本、利用信息、处置建议等维度更加具体的报告。

LLM可以进一步整合基于程序分析的漏洞数据增强能力。

通过程序分析分析漏洞相关补丁/PoC/Exp代码，有助于在code-level理解漏洞。在此基础上，LLM基于对代码和文本兼具理解力的特性，能够整合分析结果，产生更适合安全人员阅读的漏洞信息，达到漏洞库数据增强的效果。

应用

整体来说，LLM辅助的漏洞库在信息质量、采集效率上具有优势，比如针对日前爆出的XZ Utilѕ工具库中的超危恶意后门植入漏洞(CVE-2024-3094)漏洞，可以对根因、处置建议产生更加有用、详尽的信息。

图：借助语言模型与漏洞库结合，为新漏洞提供更全面、具体的漏洞信息和处置建议

参考：复旦白泽与中国电信对XZ Utils的软件供应链安全联合研究与分析：

https://mp.weixin.qq.com/s/429oIAJFB_h1unvdmfKSHQ

团队介绍

白泽软件供应链安全团队，主要研究方向围绕开源代码漏洞治理，包括漏洞挖掘、漏洞验证、漏洞预警、漏洞修复等，在ACM CCS、IEEE Security&Privacy等网络安全领域顶会顶刊上发表论文10余篇，曾获2022年USENIX Security 杰出论文奖、2023年第二届中国研究生网络安全创新大赛漏洞挖掘赛道一等奖等。

团队指导老师：

张源，https://yuanxzhang.github.io/

张磊，https://zxlfd.github.io/

供稿：郭明达、刘永横、王新杰

排版：孙福特

审核：张琬琪、洪赓、邬梦莹