基于改进遗传算法的网络疑似入侵最优数据选取

2018-11-13熊云龙

现代电子技术 2018年22期

熊云龙

摘要：针对目标网络疑似入侵数据存在大量高维和冗余特征，而现有入侵检测方法仅定性选取特征，导致入侵检测率低、误报率高、实时性差的问题，提出基于改进遗传算法的网络疑似入侵最优数据选取方法。采用半监督学习算法对归一化处理后的数据进行自动标记以获取更大规模的网络疑似入侵数据，将其作为入侵检测模型的训练数据集；采用重采样算法从训练数据集中随机选取一个训练数据子集，计算训练数据子集中疑似入侵数据特征的信息增益率，选取信息增益率最大的特征构造有效疑似入侵数据特征集；采用偏F检验对特征进一步选取，构建待优化疑似入侵数据特征集，利用改进的遗传算法对待优化特征集进行优化选择，选取出最能反应入侵状态的数据集。实验结果表明，所提方法在确保入侵检测率、误报率尽可能低的前提下，有效提高了检测效率。

关键词：遗传算法；网络疑似入侵；重采样；入侵检测；数据集；优化选择

中图分类号： TN915?34； TP393.08 文献标识码： A 文章编号： 1004?373X（2018）22?0163?03

Abstract： The suspected intrusion data of the target network has a large quantity of high?dimensional and redundant features， and the current intrusion detection method can only select features qualitatively， resulting in problems of low intrusion detection rate， high false alarm rate， and poor real?time performance. Therefore， an optimal data selection method based on the improved genetic algorithm is proposed for suspected network intrusion. The semi?supervised learning algorithm is used to automatically mark the normalized processing data， so as to obtain a large scale of suspected network intrusion data， which is taken as the training data set of the intrusion detection model. The re?sampling algorithm is adopted to randomly select a training data subset from the training data set. The information gain rates of suspected intrusion data features in the training data subset are calculated. The features with the highest information gain rates are selected to construct the suspected valid intrusion data feature set. The partial F?detection is adopted to further select features， so as to construct the to?be optimized feature set of suspected intrusion data. The improved genetic algorithm is used to optimize the selection of the to?be optimized feature set， so as to select out the data set that can best reflect the intrusion state. The experimental results show that the proposed method can effectively improve the detection efficiency on the premise of ensuring the intrusion detection rate and false alarm rate as low as possible.

Keywords： genetic algorithm； suspected network intrusion； re?sampling； intrusion detection； data set； optimization selection

随着计算机网络服务及应用的飞速发展和日益普及，其安全问题也逐渐显现出来[1?2]。如何采用有效方式防御目标网络免受入侵，成为当前计算机网络领域亟待解决的主要问题[3]。入侵检测系统作为监测网络事件的一种系统，通过对疑似入侵数据的分析来发现攻击行为，这些数据多数来自于系统和应用程序，通常含有大量高维和冗余数据，若不对这些数据进行有效处理，将会对入侵检测效果产生影响[4]。在这种情况下，如何有效地从网络疑似入侵数据中获取最有可能的攻击数据，是对目标网络进行安全评估的重要措施，对于提高网络入侵检测性能具有重要意义[5?6]。

目前，很多学者通过采用不同的特征选取方法对网络疑似入侵数据进行选取，例如文献[7]提出一种基于互信息的网络疑似入侵特征选取方法。在对目标网络数据进行预处理过程中，结合互信息理论选取出网络疑似入侵数据最优特征，结合支持向量机算法对最优数据特征进行分类完成检测。文献[8]提出基于自适应蛙跳算法的网络疑似入侵特征选取方法，利用层次分析法调整影响网络疑似入侵特征选取的参数权重并构建模糊判断矩阵，通过该矩阵调整参数概率来优化蛙跳算法。当前方法对网络疑似入侵攻击的检测具有较好的检测性能，但均没有考虑到未被选取的疑似入侵特征中含有的分类信息，导致入侵检测过程耗时长，且存在较高的误报率。

针对上述问题，提出基于改进遗传算法的网络疑似入侵最优数据选取方法。仿真实验结果表明，所提算法在保证入侵检测精度的前提下，降低了网络疑似入侵数据特征维度，提高了检测效率。

1 基于改进遗传算法的疑似入侵最优数据选取

采用min?max标准化法对目标网络数据集进行归一化处理，对归一化处理后的数据使用半监督学习算法进行自动标记以获取更大规模的网络疑似入侵数据，并将其作为入侵检测模型的训练数据集；采用重采样算法从训练数据集中随机选取一个训练数据子集，计算训练数据子集中疑似入侵数据特征的信息增益率，选取信息增益率最大的疑似入侵数据特征，构造有效疑似入侵数据特征集[9?10]。

采用偏F检验对构建的有效疑似入侵数据特征集进一步选取，构建待优化疑似入侵数据特征集，利用改进的遗传算法对待优化特征集进行优化选择，选取出最能反应入侵状态的数据集，具体过程如下。

式中：[β]表示模型中复相关系数。其中有[m′]个自变量的入侵检测模型中复相关系数的平方和为[R2]，去除自变量[xi]后模型中的复相关系数的平方和为[R2i]。[ΔR2i=R2-R2i]，假设[ΔR2i]的值越趋近于零，则说明变量[xi]对变量[y]没有显著影响；假设[ΔR2i]的值较大，说明变量[xi]对变量[y]的影响越大。

上述过程等同于检验假设，[H0：ΔR2i=0]，[H1：ΔR2i≠0]。可将这种检验方式称之为偏F检验，作为网络疑似入侵数据特征变量筛选的依据。通过偏F检验的疑似入侵数据特征集称作待优化疑似入侵数据特征集，表示为[L′]。

采用改进的遗传算法对网络疑似入侵数据特征进行寻优，设定[p（x）]表示种群中个体[x]的全部基因相应的疑似入侵数据特征中，含有攻击信息量大于给定阈值N的特征概率，即个体变异概率。用[t]表示当前阶段种群迭代次数，[T]表示进化总代数，[p（x）logtT]表示种群适应度函数。在种群迭代过程中，统计各个节点的交换概率，当该值小于给定阈值[N]时，说明网络疑似入侵特征为最重要特征的几率较小，以交叉概率[P（xj）=ci?xj?placeci?length]在染色体之间进行基因交叉操作。其中，[ci?xj?place]用于描述与基因[xj]具有相同编号的基因在染色体中的排列位置，[ci?length]表示染色体长度。

式中：[xj]用于描述染色体基因；[m″]表示染色体执行变异操作后的长度；[H（xj）]表示个体含有的信息量。

假设，[p（c）]表示全部个体中高[n]位中出现相同模式的个体阈值概率，[T]表示最大迭代次数。当满足以上两个条件中的其中一个时算法截止。从中选取高[n]位模式相同的染色体，将含有“1”的数量较少的个体作为最优解，则该染色体中编码为“1”的节点相应的网络疑似入侵特征即为被选取的最优数据特征，用由[K2]表示，这些特征构造最能反应可选取得到入侵状态的数据集，表示为[L″]：

2 实验结果与分析

为了验证基于改进遗传算法的网络疑似入侵最优数据选取方法的综合有效性，需要进行一次仿真实验。实验环境配置为：CPU为Intel Core i7 2.50 GHz；内存为8 GB；操作系统为Windows 7 32位，采用Matlab仿真软件搭建网络疑似入侵最优数据实验平台，实验数据来源于KDD99数据集，该数据集包含多条攻击连接记录。为了验证所提方法选取的网络疑似入侵数据对未知攻击类型的有效性，设定的训练数据集中仅含有5种攻击类型，测试数据集中含有4种攻击类型（DOS，U2R，R2L，Proce）。

式中：[DR]用于描述检测率；[DC]表示检测出的疑似入侵数据的数量；[AC]表示真实入侵数据的数量；[FPR]表示误报率；[MIC]表示正常网络数据被误报为入侵数据的数量；[NIC]表示正常网络数据的数量。实验结果如表1所示。

分析表1可知，所提方法通过进行网络疑似入侵最优数据选取，有效降低了数据维度。相比原始数据全集，检测率提高了7.7%，误报率降低了2%，验证了所提方法的有效性。

为了验证所提方法的优越性，将所提方法与基于互信息的网络入侵特征选取方法以及基于自适应蛙跳算法的网络入侵特征选取方法进行入侵检测实验。将得到的检测率和误报率进行对比，对比结果如表2所示。为了简化描述，将所提方法、基于互信息的网络入侵特征选取方法以及基于自适应蛙跳算法的网络入侵特征选取方法描述为A，M，U。

分析表2结果可知，基于互信息的网络入侵特征选取方法的检测率要高于基于自适应蛙跳算法的网络入侵特征选取方法，主要原因在于基于互信息的网络入侵特征选取方法对目标网络数据进行了预处理操作，去除了冗余数据和干扰数据。所提方法的检测率要更优于基于互信息的网络入侵特征选取方法，主要原因在于所提方法利用改进的遗传算法找到了最能反应入侵状态的数据集。实验结果表明，所提方法是有效的，且优于现行的其他方法。

对所提方法、基于互信息的网络入侵特征选取方法，以及基于自适应蛙跳算法的网络入侵特征选取方法进行入侵检测实验，得到的检测时间结果如图1所示。为了简化描述，将所提方法、基于互信息的网络入侵特征选取方法以及基于自适应蛙跳算法的网络入侵特征选取方法分别描述为A，M，U。

分析图1可知，随着检测数据量的不断增加，不同方法相应的检测时间均呈现出逐渐上升的趋势，但基于互信息的网络入侵特征选取方法相应的检测时间与所提方法相比多了1倍，基于自适应蛙跳算法的网络入侵特征选取方法比所提方法的检测时间多了近2倍。这对目标网络入侵检测实时性具有重要意义。

3 结论

针对当前网络疑似入侵数据选取方法存在的误报率高、检测耗时长等问题，提出基于改进遗传算法的网络疑似入侵最优数据方法，有效提高了网络疑似入侵数据检测效率，保证了网络入侵检测模型的检测精度，同时降低了检测误报率。

参考文献

[1] 顧艳林.大数据驱动下网络入侵信号提取检测仿真[J].计算机仿真，2017，34（9）：370?373.

GU Yanlin. Simulation of network intrusion signal extraction and detection based on big data drive [J]. Computer simulation， 2017， 34（9）： 370?373.

[2] 吴丽云，李生林，甘旭升，等.基于PLS特征提取的网络异常入侵检测CVM模型[J].控制与决策，2017，32（4）：755?758.

WU Liyun， LI Shenglin， GAN Xusheng， et al. Network anomaly intrusion detection CVM model based on PLS feature extraction [J]. Control and decision， 2017， 32（4）： 755?758.

[3] 安尼瓦尔·加马力，亚森·艾则孜，木尼拉·塔里甫.基于连接数据分析和OSELM分类器的网络入侵检测系统[J].计算机应用研究，2017，34（12）：3749?3752.

Anwar Jamal， Yasen Aizezi， Munila Talifu. Network intrusion detection system based on connection data analysis and OSELM classifier [J]. Application research of computers， 2017， 34（12）： 3749?3752.

[4] 韩红光，周改云.基于Markov链状态转移概率矩阵的网络入侵检测[J].控制工程，2017，24（3）：698?704.

HAN Hongguang， ZHOU Gaiyun. A network intrusion detection method based on fusion of Markov chain state transfer probability matrix [J]. Control engineering of China， 2017， 24（3）： 698?704.

[5] 庄夏.基于互信息特征选择和LSSVM的网络入侵检测系统[J].中国测试，2017，43（11）：134?139.

ZHUANG Xia. Network intrusion detection system based on mutual information feature selection and LSSVM [J]. China measurement & testing technology， 2017， 43（11）： 134?139.

[6] 刘云，向婵，王海花.基于互信息的特征选择在入侵检测中的优化[J].西北大学学报（自然科学版），2017，47（5）：666?673.

LIU Yun， XIANG Chan， WANG Haihua. Optimization of feature selection based on mutual information in intrusion detection [J]. Journal of Northwest University （Natural science edition）， 2017， 47（5）： 666?673.

[7] 彭平，孙立新，王铁柱，等.基于自适应蛙跳算法的入侵检测特征选择[J].济南大学学报（自然科学版），2016，30（2）：129?132.

PENG Ping， SUN Lixin， WANG Tiezhu， et al. Intrusion detection feature selection based on adaptive frog leaping algorithm [J]. Journal of University of Jinan （Science and technology）， 2016， 30（2）： 129?132.

[8] 陈虹，万广雪，肖振久.基于优化数据处理的深度信念网络模型的入侵检测方法[J].计算机应用，2017，37（6）：1636?1643.

CHEN Hong， WAN Guangxue， XIAO Zhenjiu. Intrusion detection method of deep belief network model based on optimization of data processing [J]. Journal of computer applications， 2017， 37（6）： 1636?1643.

[9] 高一为，周睿康，赖英旭，等.基于仿真建模的工业控制网络入侵检测方法研究[J].通信学报，2017，38（7）：186?198.

GAO Yiwei， ZHOU Ruikang， LAI Yingxu， et al. Research on industrial control system intrusion detection method based on simulation modelling [J]. Journal on communications， 2017， 38（7）： 186?198.

[10] 崔君荣，尚文利，万明，等.基于半监督分簇策略的工控入侵检测[J].信息与控制，2017，46（4）：462?468.

CUI Junrong， SHANG Wenli， WAN Ming， et al. Intrusion detection of industrial control based on semi?supervised clustering strategy [J]. Information and control， 2017， 46（4）： 462?468.