利用AI检测IoT恶意流量

zhaorong · 发表于 WEB前端技术 2021-8-12 14:56:11


	前言目前大量物联网设备及云服务端直接暴露于互联网这些设备和云服务端存在的漏洞如：心脏滴血破壳等漏洞一旦被利用可导致设备被控用户隐私泄露、云服务端数据被窃取等安全风险甚至会对基础通信网络造成严重影响。为了促进物联网领域的安全研究，研究人员制作了UNSW-NB15数据集，这是一个基于物联网的网络流量数据集，对正常活动和恶意攻击行为进行了不同的分类。本文将基于该数据集，应用AI领域的典型技术，包括决策树、随机森林、逻辑回归、多层感知器等进行检测，希望师傅们可以从中了解AI技术应用于安全领域的典型流程，包括数据预处理、数据转换、交叉验证等同时提升对物联网安全的新的认识。数据集本次用到的数据集是UNSW-NB15 这是一个基于物联网的网络流量数据集由新南威尔士大学堪培拉网络靶场实验室的 IXIA PerfectStorm工具创建，用于生成真实现代正常活动和合成当代攻击行为的混合数据集。它们使用 tcpdump 工具捕获 100 GB 的原始流量例如 Pcap文件。该数据集有九种类型的攻击，即 Fuzzers、Analysis、Backdoors、DoS、Exploits、Generic、Reconnaissance Shellcode 和 Worms，当然为了方便大家使用已经做了整理把特征标签都统计到了csv文件里。如果希望详细了解该数据集的信息的话，可以参考[2][3][4]论文该数据集中的一部分被做为训练集和测试集即 UNSW_NB15_training-set.csv 和 UNSW_NB15_testing-set.csv训练集中的记录数为 175,341条记录测试集中的记录数为 82,332 条记录分别来自不同攻击类型恶意和正常数据。数据预处理导入所需库文件数据集中的数据包括9种攻击类型分别是Fuzzers, Analysis, Backdoors, DoS, Exploits, Generic Reconnaissance,Shellcode和Worms。在csv文件最后的一列是标签 0代表郑 1代表攻击加载训练数据UNSW_NB15_training.csv 检查前5行可以看到前5行的记录都是正常的加载数据后我们首先检测是否存在缺失值面对存在缺失值的情况最简单的方法就是直接启用包含缺失值的整行和整列然后看看数据是否平衡一方面是看9种攻击类型是否平滑 y1指代这方面的标签一方面是看正常和恶意的数据量是否平衡 y2指代这方面的标签。结果如下可以看到数据集并不平滑不过并不严重我们继续往下分析本来是需要手动拆分训练集和测试集的不过UNSW_NB15已经拆分好了比率为7:3 训练集和测试集分别在UNSW_NB15_training-set.csv 和 UNSW_NB15_testing-set.csv 如果需要手动拆分的话使用下面的代码就可以了我们加载测试集供后续使用数据转换接下来需要转换数据首先需要确定哪些列是分类数据 categorical哪些列是数值数据 numerical 分类数据也叫qualitative data 或是Yes/No data是定性的而数值数据是定量的。分别将其打印对于分类数据应用OneHotEncoder 将其编码为独热数值数组对于数值数据应用StandardScaler通过去除均值和缩放到单位方差来标准化构造ColumnTransformer对象在X_train上进行fit即可每个transformer分别转换x，将结果拼接起来对测试集也进行同样的处理转换后的数据不再是dataframe结构，而是类似于数组的结构我们同样还需要转换y1 y1中一共有9类我们直接用LabelEncoder就可以了其用于规范化标签使处理对象仅包含0和类别数-1 之间的值截止目前，数据部分已经处理完成了，接下来就是训练模型了交叉验证我们训练模型后会使用5折交叉验证 cross validation,CV 进行验证评估模型的指标包括准确率准确率召回率F1分数 ROC 的 AUC 值；然后使用测试集评估模型看看效果如何我们以逻辑回归分类器为例查看交叉验证结果因为是5折交叉验证所以每个指标都有5组数据基本上我们会使用平均值来衡量校验验证的评估结果比如打印出平均的准确率模型测试在测试集上进行测试结果如下 recision是精确率也称作查全率等于tp/(tp+fp);这是针对我们预测结果而言的它表示的是预测为正的样本中有多少是真正的正样本 recall是查准率也称召回率等于tp/(tp+fn)；这是针对我们原来的样本而言的它表示的是样本中的正例有多少被预测正确了从计算公式可以看出其实就是分母不同一个分母是预测为正的样本数另一个是原来样本中所有的正样本数如果看单个指标都过于片面可以通过f1分数来评估模型性能 f1是recall和precision的加权平均在上面可以看到在0.64左右其他机器学习方法在sklearn已经实现了很多机器学习模型我们只需要一条代码就可以换模型除了逻辑回归之外还可以试试决策树和随机森林。打印出模型的超参数然后重复之前的步骤来看看结果如何可以看到随机森林的效果是相对而言比较好的多层感知器以上三个分类器都属于传统的机器学习方法那么接着我们试试MLP 这是一种前向结构的神经网络。结果如下把这四种分类器放在一起看看哪种效果更好可以看到随机森林的效果还是最好的。这也给我们一个提示虽然现在深度学习神经网络是AI的最火热的技术但是这并不意味着在所有任务上都是万能的它们更大的优势是在处理海量数据复杂任务上对于一些基础的任务可能传统的机器学习方法会有更好的效果。

微信扫一扫 分享朋友圈

利用AI检测IoT恶意流量

微信扫一扫分享朋友圈