【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路

WriteUp 9个月前 admin
189 0 0
【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路

2022 CCF BDCI

数字安全公开赛


赛题

大数据平台安全事件检测与分类识别

地址

http://go.datafountain.cn/HKe

@yyds战队

获奖方案


团队简介


团队成员就读于北京邮电大学网络空间安全学院电子信息专业;研究方向包括但不限于大数据领域的数据治理体系搭建、大规模网络态势感知、推荐系统的搭建和安全分析等。荣誉奖励,研究生期间连续两年获得北京邮电大学一等奖学金、并获得优秀研究生称号、同时作为队长获得过华为杯建模国家一等奖等奖项。

【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路


摘要


大数据平台由于管理复杂、安全机制不健全导致平台上的大数据面临相当大的安全风险。近年来SQL注入攻击、差分攻击、重标识攻击、数据删除、数据泄露、加密勒索攻击等多种安全威胁,导致的数据泄露、滥用或不可用等数据安全事件不断涌现。针对数据安全问题,日志审计分析是一种非常有效的风险应对手段,基于大数据平台日志、安全设备日志和平台网络流量等多源异构数据进行分析,可有效实现攻击行为的发现或预测,并进行溯源,保护企业或组织内部数据安全。

在这份技术报告中,我介绍了用于大数据平台安全事件检测与分类识别的Logsy模型和LogRobust模型,同时通过一致性判断,使分类结果更加精确,最终我的方案成绩排名是复赛第一名。


关键词


大数据平台安全事件检测与分类识别、

Logsy、LogRo-bust、一致性判断


介绍


1.1 数据集


初赛数据集样本量:1.10GB 数据量,包含正常行为日志和数据安全事件日志两类日志。复赛数据集样本量:1.24GB数据量,包含正常行为日志SQL注入攻击日志、差分攻击日志、重标识攻击日志、数据删除日志、数据泄露攻击、加密勒索攻击日志七类日志。


1.2 任务


初赛要求提交日志审计分析预测结果,label字段为参赛团队对该时间日志进行预测的标签,并且label字段要求对正常行为日志标记为normal,数据安全事件日志标记为attack。复赛要求,label字段为参赛团队对该时间日志进行预测的标签,并且 label 字段要求对正常行为日志标记为normal,SQL注入攻击日志标记为sql_attack,差分攻击日志标记为diff_attack,重标识攻击日志标记为reident_atta-ck,数据删除攻击日志标记为deletion_attack,数据泄露攻击标记为leakage_attack,加密勒索攻击标记为en_attack。


1.3 评估指标


本赛题以Macro-F1为评测标准,其中Macro-F1计算公式为:

【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路


解决方案


在本节中,将解释我们解决方案的主要方法。我的方法的整体架构如图1所示。我实现了两个模型并判别一致性来处理这个问题。由于本问题涉及到如何使用上下文信息来判断异常日志,所以可以使用神经网络模型去进行解决。我尝试了Isolation Forest、One Class SVM、Transformer和BiLSTM模型。

【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路

图 1:方案架构图


2.1 Logsy 模型[1]


Logsy由两个步骤组成,为日志分词和神经网络模型,首先需要预处理日志信息,将其转为日志词序列,并在头部添加Embedding。同时构建日志字典,并得到词向量与位置向量的合并值,从而根据Key、Query、Value的值得到多头注意力值,最后将其送入到线性前馈网络中,得到输出向量并计算其异常值。图 2 是其具体的流程。

【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路

图 2:Logsy 流程图


使用Logsy处理日志信息之后日志变为长度为50的标识序列,其有两层transformer编码器。词被嵌入16个神经元,得到相同大小的向量表示;通过添加损失函数的权重平衡正常和异常日志间数量的不平衡。


2.2LogRobust[2]


LogRobust的具体流程分为三个部分,分别是日志解析、语义向量化、结合注意力机制的BiLSTM。

在日志解析阶段,使用了Drain解析器[3]

在语义向量化处理阶段,分为三个步骤,首先需要对日志事件进行预处理,将其处理成由一个个token组成的序列,token通常是英文单词(与此同时,一些无意义的符号 还有一些数字会首先被删除,一些组合词语会被拆解成不同的token);接着需要进行word向量化,通过FastText[4]计算出一个N*d维(d=300)的矩阵,每一行都是用来表示这个单词的。通过这个矩阵,能保留句子的特性,从而在后续处理中将相同主干的句子能够分类到一起;最后基于TF-IDF的聚合,TF在当前事件中的出现频率,比如db在这个事件序列中出现的整体次数,越多证明越重要,第二个值IDF是这个单词在多个事件中出现的频率,如果大部分序列中都有他的出现,那么 这个单词对于这个日志序列就没有代表性,毫无意义,他的对应权重应该降低。

在基于注意力机制的双向LSTM网络阶段中,Bi-LSTM把隐藏层分为两个部分,前向和后向,训练后将他们组合输出。在最后的输出前添加一个全连接层,并引入注意力机制来为日志事件分配不同的权重。α就是计算出来的日志权重。α越大,模型关注此日志事件。其中wt的表示注意力机制层在时间t的权重,最后也可求出softmax值。

【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路

具体的流程图如图 3 所示。

【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路

图 3:LogRobust 流程图


2.3 一致性判断


在使用两种模型得到具体的异常日志结果之后,对其进行了一致性判断,使用求和得到状态值,当二种模型检测结果都得到相同结果,并且其状态值为2,认为具有一致性;标记为1,记为异常日志事件;其余情况均为正常日志。


训练


使用GTX1060Ti,训练模型花费了大约 25 分钟,具体的参数配置如表1、表2所示。

【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路
【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路
【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路


结果及分析


在本节中,我通过实验比较了不同模型的性能,结果如表3所示。可以看到,实验中,深度学习方法比KNN或LGB等统计学习方法表现得更好。

【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路
【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路


从表中可以看出,使用了深度学习的两种异常检测检测算法明显高于传统机器学习,同时在使用了一致性判断之后,其结果得到了更高的提升。


致谢


非常感谢中国计算机学会大数据与计算智能大赛(CCF BDCI)组委会、大数据协同安全技术国家工程研究中心、以及认真负责的相关比赛负责人能够给予我这次机会,让我提升了从真实的业务场景中去解决问题的能力。


参考


[1] S. Nedelkoski, J. Bogatinovski, A. Acker, J. Cardoso and O. Kao, “Self-Attentive Classification-Based Anomaly Detection in Unstructured Logs,” 2020IEEE International Conference on Data Mining (ICDM), 2020, pp. 1196-1201,doi: 10.1109/ICDM50108.2020.00148.

[2] Xu Zhang, Yong Xu, Qingwei Lin, Bo Qiao, Hongyu Zhang, Yingnong Dang,Chunyu Xie, Xinsheng Yang, Qian Cheng, Ze Li, Junjie Chen, Xiaoting He,Randolph Yao, Jian-Guang Lou, Murali Chintalapati, Furao Shen, and DongmeiZhang. 2019. Robust log-based anomaly detection on unstable log data. In Proceedings of the 2019 27th ACM Joint Meeting on European Software Engineering Conference and Symposium on the Foundations of Software Engineering (ESEC/FSE 2019). Association for Computing Machinery, NewYork, NY, USA, 807–817. https://doi.org/10.1145/3338906.3338931

[3] He P , Zhu J , Zheng Z , et al. Drain: An Online Log Parsing Approach with Fixed Depth Tree[C]// 2017 IEEE International Conference on Web Services(ICWS). IEEE, 2017.

[4] Bojanowski P , Grave E , Joulin A , et al. Enriching Word Vectors with Subword Information[J]. Transactions of the Association for Computational Linguistics, 2017, 5:135-146


—End—


【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路
【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路

戳“阅读原文”,速来参赛办赛~

原文始发于微信公众号(DataFountain):【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...