APP下载

基于CGAN-CNN-attention-BiLSTM网络的工控入侵检测系统

2021-12-18黄驰杨雅姿张文陈琳

电脑知识与技术 2021年31期
关键词:注意力机制卷积神经网络遗传算法

黄驰 杨雅姿 张文 陈琳

摘要:工业控制管理系统在实现信息网络化的进程中,以庞大的数据量进行高速率传输为特点,建立安全区域尤为重要。针对非协议的网络攻击,基于CNN-attention-BiLSTM网络的系统模型的入侵检测系统以卷积神经网络提取特征值,辅以条件生成对抗网络,通过生成新样本解决样本不平衡性问题。用户对入侵检测系统的评估主要关注准确率、完备性、及时性等性能。该文算法将输入向量通过改进遗传算法优化的信念网络进行降维处理;利用条件生成对抗网络生成少数攻击样本类型的样本;利用卷积层提取局部特征;利用注意力机制来发掘不同的特征对攻击类型的预测的权重影响。该文将基于CNN-attention-BiLSTM网络的模型和基于卷积神经网络以及基于attention-BiLSTM网络等技术的模型进行对比,将cgan和cvae进行对比,从准确率、误报率、处理性能和完备性等角度对性能进行评估。实验证明,基于CGAN-CNN-attention-BiLSTM网络的模型在kdd 99测试集上的性能最优;使用信念网络降维能有效减少程序运行时间。

关键词:遗传算法;深度信念网络;卷积神经网络;注意力机制;BiLSTM

中图分类号:TP393        文献标识码:A

文章编号:1009-3044(2021)31-0015-05

1 相关研究

KDDup 99数据集常用来作为入侵检测的研究对象,从横向看,某些相邻数据属于同一类,具有一定关联,形成空间信息;从纵向看,数据集以时间为顺序进行排列,形成时间序列信息。

经典的循环结构对一维数据进行分析,时间相关性被较好地解决,但这种结构只能通过提取得到时间序列数据信息,无法提取空间环境信息,针对空间信息而言,其涵盖了非常丰富的冗余数据,LSTM无法处理;某些关键特征对预测结果的影响力不够,导致某些数值极大但并没有那么关键的特征极大地影响了预测结果,从而造成偏差。

为了消除上述问题,蔡爽等人设计了CNN-attention-BiLSTM[1-3]。上述方法对原数据集没有有效的降维方法。对输入数据进行降维(比如信念网络)可以提高分析数据的速度,让入侵检测在工控系统中达到实时的要求。为了达到避免信念网络在训练发展过程中陷入局部最小值的目的,使用改进遗传算法生成信念网络参数的初始值。改进遗传算法在每一代演化中使用数据集的不同部分计算种群的适应度,类似迁徙,在遍历数据集的情况下减少了程序运行时间。本文将CNN-attention-BiLSTM網络和cgan结合,用CNN-attention-BiLSTM网络构建cgan的生成器和判别器,生成指定类型的攻击样本[4]。

对照组条件变分自编码器的编码器器和解码器也是用CNN-attention-BiLSTM网络构建的。

2 CNN-attention-BiLSTM模型结构

2.1 数据预处理

数据预处理方法如下:

(1)将字符型数据去重后放在列表里,用列表的序号代替字符型数据。

(2)将序号通过one-hot转化为向量。

(3)将这些向量通过改进遗传算法优化的信念网络进行降维(三组向量共有2310种组合,刚好小于2的12次方,故将其降为12维)。

(4)把降维后的数据和其他数据拼接(数据维数为50)。

(5)将拼接的数据中大于255的值换成255。

(6)拼接的数据中有2列所有值一样,将这2列去掉(数据维数就变为48)。

(7)将去重后的数据除以255进行归一化。

2.2 遗传算法优化的深度信念网络

2.2.1 算法原理

深度信念网络结构参数对整个深度信念网络降维后的数据能否最大程度地还原起着决定作用。这些结构参数容易局部收敛,无法获得全局最优值。本研究设计了一类优化的深度信念网络模型,简单来讲就是进行数据重构,从而得到若干串结构,通过遗传算法得到最优染色体。将最优染色体配置到目标网络,计算深度信念网络的适应度,在其符合终止条件时,可以实现分类结果的稳定输出。遗传算法能够体现多样性的特点,比如其复杂性较低,可以表现出众的全局搜索效果。除此之外,它在智能诊断方面能够发挥不可忽视的作用[5]。

优化步骤如下:

(1)初始化种群。

(2)深度信念网络在每一代演化中从数据集中选取不同的数据计算适应度,具体方法为将选取的数据映射到隐含层,再映射到可视层,可视层的数据和原始数据差异越小,适应度越高。

(3)选择算法使用俄罗斯轮盘赌,经选择、交叉等步骤演化,回到第二步。

2.2.2 算法实现

本文使用经改进遗传算法优化的深度信念网络对数据进行降维,如图1所示。

由图1可知,在每一代演化中选取数据集的不同部分(可以按顺序从上往下选取)计算适应度,经历若干代演化,就能遍历整个数据集,产生更优秀的种群。

遗传算法筛选深度信念网络初始参数。在搭建深度信念网络模型时,深度信念网络的输入节点为22,因为kdd 99数据集中有22列数据由0和1组成。隐含层层数可以选定3层。信念网络使用如下公式计算迭代次数:迭代次数=数据集样本数/每一批样本个数,当数据集被遍历一遍的时候结束迭代[6-7]。

2.3 网络结构

2.3.1 CNN-attention-BiLSTM网络的网络结构

CNN-attention-BiLSTM网络的网络结构如图2所示。

输入数据格式是(时间步数,行数,列数,深度),时间步数是11;经预处理后,数据维数是48,通过reshape函数将其转化为(6,8,1)的格式,以便卷积核提取特征。卷积层输出数据的深度是32。用于计算注意力权重的数据首先经过Permute层,Permute用于将数据组成的矩阵转置,经过转置以后经过全连接层,同一特征不同时间步的所有权重加起来等于1。将注意力权重进行转置,再和原始数据进行逐元素乘法,再经过BiLSTM,将过去的信息和未来的信息结合起来。在最后一步将数据通过交叉熵进行分类预测。

2.3.2 条件生成对抗网络的网络结构

条件生成对抗网络的网络结构如图3、图4和图5:

生成器输入数据格式是(时间步数,随机噪音维数+标签维数),通过全连接层转换成48维后整理成CNN-attention-BiLSTM网络可以处理的格式,输出时整理成判别器可以处理的格式。判别器输入数据铺平成一维,和标签拼接,再放入attention-BiLSTM网络,最后输出的值为打分,当输入样本越接近真实样本时,值越接近1。

3 实验与分析

3.1 KDD 99 数据集

本研究将KDD 99数据集充当实验数据,该数据最初用于入侵风险评估,此后由WENKE等学者将其进行优化,并在数据分析中对其进行应用。这个数据集通过多个功能属性和攻击类型标签构建而成。它能够划分为多种类型,其中比较具有代表性的包括网络连接基本特征等。而针对攻击行为类型来讲,其重点涉及到拒绝提供服务进行攻击、扫描收集有关数据等类型,一些网络连接被标识为正常,其分布情况如表1所示[8]。

3.2 超参数分析

3.2.1 卷积核大小对cnn网络准确率的影响

卷积核大小对cnn网络准确率的影响如图6所示。

在图6中,左上为准确率的折线图,右上为误差率的折线图,下方为处理性能的折线图,单位是秒。

由图6可知,卷积核大小对处理性能的影响最明显,卷积核大小从1到6,处理性能随着卷积核的增大而增高,说明卷积核越大,处理数据的速度越慢。卷积核大小对准确率和误报率的影响相对较小;卷积核大小小于3时,准确率出现波动,误报率一直下降;卷积核大小大于3时,准确率和误报率都在波动,因此,卷积核不宜过大,也不宜过小。综上,当卷积核大小为3时,取得的实验效果最好。

3.2.2 输出空间的维数对attention-BiLSTM网络准确率的影响

LSTM的合适的输出空间的维数会改善准确率偏低的现象,将输出空间的维数设置为30~34,如图7所示。

在图7中,左上为准确率的折线图,右上为误差率的折线图,下方为处理性能的折线图,单位是秒,三张图的横坐标都是输出空间的维数。

LSTM的结构对准确率、误报率和处理性能的影响都较大。当输出空间的维数为30时,准确率最高,处理性能最好;当输出空间的维数为32时,误报率最低。综上,当输出空间的维数为30时,准确率和处理性能都达到最优,误报率也较低,取得最佳的实验结果。

3.3 判別方法性能对比

本文在未使用条件生成对抗网络生成新数据的情况下使用CNN网络和attention-BiLSTM网络与CNN-attention-BiLSTM网络进行对比。

3.3.1 完备性对比分析

各方法完备性对比如图8所示。

由图8可以看出,基于CNN-attention-BiLSTM的方法识别probe、dos和r2l的准确率高于基于CNN的方法和基于attention-BiLSTM的方法,证明与CNN和attention-BiLSTM相比,CNN-attention-BiLSTM方法能有效提取局部特征。CNN-attention-BiLSTM方法对于Normal、Probe、DoS、U2R和R2L这5种攻击类型的检测准确率分别为0.971645018072587、0.663466154584733、0.99402226640505、0和0.332139106800914。

3.3.2 准确性和误报率对比分析

各方法准确性和误报率对比如表2所示。

由表2可知,CNN-attention-BiLSTM方法的准确率更高、误报率更低,分别为0.951264381和0.048375118,同样证明与CNN和attention-LSTM相比,cnnattention-LSTM方法能有效提取局部特征。

3.3.3 处理性能对比分析

各方法处理性能对比如表3所示。

由表3可知,三种方法降维以后所需时间都更短,降维对于CNN-attention-BiLSTM的影响最大,时间缩短了将近一倍,为15.7256841秒,证明降维方法可以有效缩短入侵检测方法处理网络数据的时间达到工控系统实时的要求。

3.4 生成方法性能对比

本文将条件生成对抗网络和条件变分自编码器生成的新数据分别放入CNN-attention-BiLSTM网络进行性能对比。

3.4.1 完备性对比分析

各方法完备性对比如图9所示。

由图9可以看出,使用条件生成对抗网络生成新数据的方法识别各种网络攻击的准确率均高于使用条件变分自编码器生成新数据的方法和不生成新数据的方法,条件生成对抗网络对少数攻击和未知攻击具有更强的检测能力。使用条件生成对抗网络生成新数据的方法对于Normal、Probe、DoS、U2R和R2L这5种攻击类型的检测准确率分别为0.957599564277344、0.897983677388382、0.998499040691224、0.0614035087719298和0.703749459509543,证明了该方法的有效性,完备性最好。

3.4.2 准确性和误报率对比分析

各方法准确性和误报率对比如表4所示。

条件生成对抗网络的准确率更高、误报率更低,分别为0.973156512和0.042400436,条件生成对抗网络对少数攻击和未知攻击具有更强的检测能力。

4 总结

本文提出了一种融合CGAN、CNN和BiLSTM的网络入侵检测方法。通过CGAN学习每种样本的潜在数据分布来生成指定类型的样本,一定程度上解决了样本不平衡性的问题,从而提高了分类器对少数攻击和未知攻击的检测率;通过CNN提取局部平行特征,弥补局部特征提取不全的问题;利用BiLSTM提取长距离依赖特征,从而更好地考虑序列数据中每个属性点的前后属性的影响,提高准确率;引入注意力机制,加大重要特征权重并减小次要特征权重,以提高检测性能;使用信念网络等降维方法,提高程序运行速度,以满足工控系统实时的要求。

实验结果表明,CNN-attention-LSTM方法的准确率较高,泛化能力较好;使用信念网络降维能有效减少程序运行时间;条件生成对抗网络生成的新数据比条件变分自编码器更能提高模型的准确率。下一步是将该模型和tcpdump和windump等抓包软件结合,实现在linux系统上和windows系统上对网络数据进行实时监测。在实时监控的基础上进行人工检测,能够获取态势感知,以便完善工控系统的安全区域实际防御能力。

参考文献:

[1] Liao C H,Zhu G B,Kuwabara D,et al.Multi-hop LoRa networks enabled by concurrent transmission[J].IEEE Access,2017,5:21430-21446.

[2] WAN Fen.Discussion on LoRa Internet of things technology and application[J].Telecom World,2017(2):91-92.

[3] 劉月峰,蔡爽,杨涵晰,等.融合CNN与BiLSTM的网络入侵检测方法[J].计算机工程,2019,45(12):127-133.

[4] 彭中联,万巍,荆涛,等.基于改进CGANs的入侵检测方法研究[J].信息网络安全,2020(5):47-56.

[5] Ernoult M,Grollier J,Querlioz D.Using memristors for robust local learning of hardware restricted boltzmann machines[J].Scientific Reports,2019,9:1851.

[6] Hinton G E.Learning multiple layers of representation[J].Trends in Cognitive Sciences,2007,11(10):428-434.

[7] 石宪,钱玉良.基于改进深度信念网络的燃气轮机故障诊断[J].上海电力大学学报,2020,36(2):123-130.

[8] 张浩,陈龙,魏志强.基于数据增强和模型更新的异常流量检测技术[J].信息网络安全,2020,20(2):66-74.

[9] 曹元大,薛静锋,祝烈煌,阎慧.入侵检测技术[M].北京:人民邮电出版社,2007.

【通联编辑:代影】

收稿日期:2021-03-20

作者简介:黄驰(1996—),男,硕士研究生,主要从事网络安全研究;杨雅姿(1993—),女,硕士研究生,主要从事网络安全研究;张文(1996—),男,硕士研究生,主要从事网络安全研究;通信作者:陈琳(1972—),教授,硕士生导师,博士,主要从事网络安全研究。

猜你喜欢

注意力机制卷积神经网络遗传算法
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
基于自适应遗传算法的CSAMT一维反演
InsunKBQA:一个基于知识库的问答系统
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
基于深度卷积神经网络的物体识别算法
基于卷积神经网络的树叶识别的算法的研究
基于改进的遗传算法的模糊聚类算法