【二等奖方案】大数据平台安全事件检测与分类识别赛题「yyds」团队解题思路

WriteUp 9个月前 admin

189 0 0

2022 CCF BDCI

数字安全公开赛

赛题

「大数据平台安全事件检测与分类识别」

地址

http://go.datafountain.cn/HKe

@yyds战队

获奖方案

团队简介

团队成员就读于北京邮电大学网络空间安全学院电子信息专业；研究方向包括但不限于大数据领域的数据治理体系搭建、大规模网络态势感知、推荐系统的搭建和安全分析等。荣誉奖励，研究生期间连续两年获得北京邮电大学一等奖学金、并获得优秀研究生称号、同时作为队长获得过华为杯建模国家一等奖等奖项。

摘要

大数据平台由于管理复杂、安全机制不健全导致平台上的大数据面临相当大的安全风险。近年来SQL注入攻击、差分攻击、重标识攻击、数据删除、数据泄露、加密勒索攻击等多种安全威胁，导致的数据泄露、滥用或不可用等数据安全事件不断涌现。针对数据安全问题，日志审计分析是一种非常有效的风险应对手段，基于大数据平台日志、安全设备日志和平台网络流量等多源异构数据进行分析，可有效实现攻击行为的发现或预测，并进行溯源，保护企业或组织内部数据安全。

在这份技术报告中，我介绍了用于大数据平台安全事件检测与分类识别的Logsy模型和LogRobust模型，同时通过一致性判断，使分类结果更加精确，最终我的方案成绩排名是复赛第一名。

关键词

大数据平台安全事件检测与分类识别、

Logsy、LogRo-bust、一致性判断

介绍

1.1 数据集

初赛数据集样本量：1.10GB 数据量，包含正常行为日志和数据安全事件日志两类日志。复赛数据集样本量：1.24GB数据量，包含正常行为日志SQL注入攻击日志、差分攻击日志、重标识攻击日志、数据删除日志、数据泄露攻击、加密勒索攻击日志七类日志。

1.2 任务

初赛要求提交日志审计分析预测结果，label字段为参赛团队对该时间日志进行预测的标签，并且label字段要求对正常行为日志标记为normal，数据安全事件日志标记为attack。复赛要求，label字段为参赛团队对该时间日志进行预测的标签，并且 label 字段要求对正常行为日志标记为normal，SQL注入攻击日志标记为sql_attack，差分攻击日志标记为diff_attack，重标识攻击日志标记为reident_atta-ck，数据删除攻击日志标记为deletion_attack，数据泄露攻击标记为leakage_attack，加密勒索攻击标记为en_attack。

1.3 评估指标

本赛题以Macro-F1为评测标准,其中Macro-F1计算公式为：

解决方案

在本节中，将解释我们解决方案的主要方法。我的方法的整体架构如图1所示。我实现了两个模型并判别一致性来处理这个问题。由于本问题涉及到如何使用上下文信息来判断异常日志，所以可以使用神经网络模型去进行解决。我尝试了Isolation Forest、One Class SVM、Transformer和BiLSTM模型。

图 1：方案架构图

2.1 Logsy 模型^[1]

Logsy由两个步骤组成，为日志分词和神经网络模型，首先需要预处理日志信息，将其转为日志词序列，并在头部添加Embedding。同时构建日志字典，并得到词向量与位置向量的合并值，从而根据Key、Query、Value的值得到多头注意力值，最后将其送入到线性前馈网络中，得到输出向量并计算其异常值。图 2 是其具体的流程。

图 2：Logsy 流程图

使用Logsy处理日志信息之后日志变为长度为50的标识序列，其有两层transformer编码器。词被嵌入16个神经元，得到相同大小的向量表示；通过添加损失函数的权重平衡正常和异常日志间数量的不平衡。

2.2LogRobust^[2]

LogRobust的具体流程分为三个部分，分别是日志解析、语义向量化、结合注意力机制的BiLSTM。

在日志解析阶段，使用了Drain解析器^[3]。

在语义向量化处理阶段，分为三个步骤，首先需要对日志事件进行预处理，将其处理成由一个个token组成的序列，token通常是英文单词（与此同时，一些无意义的符号还有一些数字会首先被删除，一些组合词语会被拆解成不同的token）；接着需要进行word向量化，通过FastText^[4]计算出一个N*d维(d=300)的矩阵，每一行都是用来表示这个单词的。通过这个矩阵，能保留句子的特性，从而在后续处理中将相同主干的句子能够分类到一起；最后基于TF-IDF的聚合,TF在当前事件中的出现频率，比如db在这个事件序列中出现的整体次数，越多证明越重要，第二个值IDF是这个单词在多个事件中出现的频率，如果大部分序列中都有他的出现，那么这个单词对于这个日志序列就没有代表性，毫无意义，他的对应权重应该降低。

在基于注意力机制的双向LSTM网络阶段中，Bi-LSTM把隐藏层分为两个部分，前向和后向，训练后将他们组合输出。在最后的输出前添加一个全连接层，并引入注意力机制来为日志事件分配不同的权重。α就是计算出来的日志权重。α越大，模型关注此日志事件。其中w_t的表示注意力机制层在时间t的权重,最后也可求出softmax值。

具体的流程图如图 3 所示。

图 3：LogRobust 流程图

2.3 一致性判断

在使用两种模型得到具体的异常日志结果之后，对其进行了一致性判断，使用求和得到状态值，当二种模型检测结果都得到相同结果，并且其状态值为2，认为具有一致性；标记为1，记为异常日志事件；其余情况均为正常日志。

训练

使用GTX1060Ti，训练模型花费了大约 25 分钟，具体的参数配置如表1、表2所示。

结果及分析

在本节中，我通过实验比较了不同模型的性能，结果如表3所示。可以看到，实验中，深度学习方法比KNN或LGB等统计学习方法表现得更好。

从表中可以看出，使用了深度学习的两种异常检测检测算法明显高于传统机器学习，同时在使用了一致性判断之后，其结果得到了更高的提升。

致谢

非常感谢中国计算机学会大数据与计算智能大赛（CCF BDCI）组委会、大数据协同安全技术国家工程研究中心、以及认真负责的相关比赛负责人能够给予我这次机会，让我提升了从真实的业务场景中去解决问题的能力。

参考

[1] S. Nedelkoski, J. Bogatinovski, A. Acker, J. Cardoso and O. Kao, “Self-Attentive Classification-Based Anomaly Detection in Unstructured Logs,” 2020IEEE International Conference on Data Mining (ICDM), 2020, pp. 1196-1201,doi: 10.1109/ICDM50108.2020.00148.

[2] Xu Zhang, Yong Xu, Qingwei Lin, Bo Qiao, Hongyu Zhang, Yingnong Dang,Chunyu Xie, Xinsheng Yang, Qian Cheng, Ze Li, Junjie Chen, Xiaoting He,Randolph Yao, Jian-Guang Lou, Murali Chintalapati, Furao Shen, and DongmeiZhang. 2019. Robust log-based anomaly detection on unstable log data. In Proceedings of the 2019 27th ACM Joint Meeting on European Software Engineering Conference and Symposium on the Foundations of Software Engineering (ESEC/FSE 2019). Association for Computing Machinery, NewYork, NY, USA, 807–817. https://doi.org/10.1145/3338906.3338931

[3] He P , Zhu J , Zheng Z , et al. Drain: An Online Log Parsing Approach with Fixed Depth Tree[C]// 2017 IEEE International Conference on Web Services(ICWS). IEEE, 2017.

[4] Bojanowski P , Grave E , Joulin A , et al. Enriching Word Vectors with Subword Information[J]. Transactions of the Association for Computational Linguistics, 2017, 5:135-146

—End—

戳“阅读原文”，速来参赛办赛~