基于密度均衡的网络入侵检测

2016-12-21张燕杜红乐李楠

微型电脑应用 2016年8期

张燕，杜红乐，李楠

基于密度均衡的网络入侵检测

张燕，杜红乐，李楠

针对网络入侵检测中数据集的不均衡性和异构性，提出了一种基于密度均衡的网络入侵检测算法，利用异构距离计算类密度，依据类密度之间的关系把多数类数据集划分为多个子集；然后依据每个子集密度与少数类密度之间的关系动态计算重取样后样本数目，利用K-means聚类算法对每个子类进行重取样，实现数据集的均衡化处理。最后在KDDCUP99数据集上进行仿真实验，实验结果表明，该算法提高支持向量机对少数类的分类性能，同时提高运行效率。

支持向量机；不均衡数据；欠取样；K-均值聚类

0 引言

入侵检测被看作网络安全的第二道防线，依据采用的方法把入侵检测分为：误用检测和异常检测。误用检测需要建立入侵者的行为模式，采用模式匹配法进行检测，该方法适用于已知攻击类型；异常检测需要建立用户的正常行为模式，判断是否偏离正常模式为依据进行入侵检测，该方法适用于未知入侵检测。两种方法都需要为用户行为建立模式，都可以用分类的方法区分用户行为。由于入侵者的行为数据难于收集，且不同入侵者行为数据也不尽相同，因此异常检测受到更多的关注，支持向量机由于在解决小样本、非线性、高维模式识别问题中表现出特有的优势，也被许多专家学者应用到网络入侵检测中[1-4]。

由于入侵行为数据难于收集，样本数量较少，而正常行为数据容易收集，样本数量较多，即入侵检测数据属于不均衡数据。支持向量机为了保证最小化分类错误率、最大化分类间隔，分类超平面会向样本密度小的区域偏移，即造成对多数类的过学习和少数类的欠学习现象。而在入侵检测中，对少数类（入侵行为数据）的错分代价要远远高于对多数类（正常行为数据）的错分代价。提高不均衡数据下SVM的分类性能的方法分为两类：数据层面的方法和算法层面的方法。数据层面的方法主要是通过一定策略对多数类样本进行欠取样或者对少数类样本进行过取样，从而达到数据集均衡化，进而提高分类器的分类性能；算法层面的方法主要有单类学习、代价敏感学习、核方法、集成方法如boosting等[5,6]。

文献[7-12]都采用聚类算法对数据集进行相应处理：文献[8]利用K-Means算法对多数类样本进行聚类并提取类中心，得到与少数类样本数量相当的样本重构新的训练集，为了避免少数类样本过少导致最终训练样本过度稀疏，对少数类样本采用SMOTE算法进行过取样；文献[9,10]为提高泛化能力，聚类在核空间中进行，并利用AdaBoost集成手段对该欠取样算法进行集成；文献[11]引入“聚类一致性系数”找出处于少数类边界区域和处于多数类中心区域的样本，然后用SMOTE对少数类样本进行过取样，用改进的随机欠取样对多数类样本进行处理；文献[12]利用谱聚类的优点对多

3.2 实验数据选取

每条记录有41个属性，属性中有数值类型的，也有字符类型的，但是SVM只能处理数值向量，因此在进行训练之前首先把数值数据进行归一化。多数算法对字符数据常采用数值化，即对字符属性通过数字代替，例如70种service属性数据用1，2，…，70替，然而1和2之间的区别与1和70间的区别相同，都表示不同的服务类型，但是数值化后在运算中就有很大的区别，为了减少他们之间的差别，本实验中采用异构距离来描述样本之间的关系。

为了减少训练时间，同时保持数据原有的空间分布信息，采用等间隔法选取训练数据和测试数据如表1所示：

表1 数据集中数据分布情况

训练数据train从第一条开始每隔400条取一条，共1231条记录，其中正常记录298条，入侵记录933条；无标签数据及测试集为test（在训练时作为无标签数据，测试时依据原有的标签验证测试准确率），是从Correct数据集中第一条开始每100条取一条，共计3110条记录，其中正常记录607条，入侵记录2503，可以看出数据属于不均衡数据，但实际应用中是正常记录远远大于入侵记录。

3.3 实验结果及分析

本实验中对3种算法SVM、Cluster-SVM和DESVM进行结果比较，其中SVM为直接支持向量机算法，Cluster-SVM为对多数类样本进行聚类后用支持向量机算法，DESVM为本文算法。对表1中数据训练后的分类结果，由如表2所示：

表2 实验结果对比表

DESVM算法提高了分类准确率，由Fv的值可以看出对少数类的分类性能也有所提高。

为了对比K值对实验结果的影响，列出了不同K值的实验结果，如表3所示：

表3 K值的影响

可以看到随着K值的增加训练速度越来越快，K=1表示在样本标注时采用成对标注法，随着K值的增加，每次标注的样本数量也在不断的增加，因此训练速度不断提高，但是被标注的样本错误的可能性就会增加，即分类器学习到错误的信息，并且这些错误信息是会传递的，因此可以看到表3中的结果，K值越小，训练速度越慢，分类器性能较好，K值越大，训练速度越快，但是分类性能就差。

4 总结

针对数据不均衡对分类超平面的影响，导致入侵检测系统性能不高的问题，提出一种基于密度均衡的SVM入侵检测算法，该方法在深入分析分类超平面偏移的本质原因，然后利用密度之间的关系对样本密度进行均衡化处理，在一定程度上避免或减少数据不均衡的影响，提高分类器的泛化能力，实验结果也表明，可以提高少数类的检测准确率（入侵检测中的漏检率）。但是算法在大规模数据集下的训练速度较慢，如何提高速度将是下阶段的主要工作。

[1] 饶鲜,董春曦,杨绍全.基于支持向量机的入侵检测系统[J].软件学报,2003,14(4):798-803.

[2] 李辉,管晓宏,昝鑫,等.基于支持向量机的网络入侵检测[J].计算机研究与发展,2003,40(6):799-807.

[3] 武小年,彭小金,杨宇洋,等.入侵检测中基于SVM的两级特征选择方法[J].通信学报,2015,36(4):1-8.

[4] 李国栋,胡建平,夏克文.基于云PSO的RVM入侵检测[J].控制与决策,2015,30(4):698-702.

[5] WANG B X, Japkowicz N. Boosting support vector machines for imbalanced data sets[C]. Lecture Notes in Artificial Intelligence, 2008, 4994:38-47.

[6] 李雄飞,李军,董元方,等.一种新的不平衡数据学习算法PCBoost[J].计算机学报, 2012, 35(2):202-209.

[7] 楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报(工学版),2013,47(6):944-950.

[8] 林舒杨,李翠华,江弋,等.不平衡数据的降维采用方法研究[J].计算机研究与发展,2011,48:47-53.

[9] 陶新民,童智靖,刘玉.基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J].控制与决策,2011.26(10):1535-1541.

[10] 杜红乐.基于核空间中K-近邻的不均衡数据算法[J].计算机科学与探索,2015,9(7):869-876.

[11] 李鹏,王晓龙,刘远超.一种基于混合策略的失衡数据集分类方法[J].电子学报,2007,35(11):2161-2165.

[12] 王鹏,邱枫,张为华,等.一种任意维Line-Sweep计算的数据划分算法[J].计算机学报,2012,35(12):2573-2586.

[13] He H B, Garcia E A. Learning from imbalanced data[J].IEEE Transactions on Knowledge and Data Engineering, 2009,21(9):1263-1284.

[14] Wilson D R. Tony R Martinez. Improved heterogeneous distance functions [J]. Journal Artificial Intelligence Research.1997, 6(1):1-34.

[15] CHANG C C, LIN C J. LIBSVM: a library for support vector machines, 2014.Software available at http://www. csie. ntu.tw/~cjlin/libsvm.

Network Intrusion Detection Based on Density Equalization

Zhang Yan, Du Hongle, Li Nan
(School of Mathematics and Computer Application, Shangluo University, Shangluo 726000, China)

In order to reduce the impact of imbalanced and Heterogeneous data for dataset of network intrusion detection, an intrusion detection algorithm based on density equalization is proposed. The algorithm calculates the class density according to Heterogeneous distance. Then majority class is divided into multiple sub classes according to the relation between sample density of particle density and minority class. Calculate the value of K and resampling for every sub classes with K-means cluster algorithm. Then get the balance data sets. Finally, experiment results with KDDCUP99 dataset show the algorithm can improve the classification performance at imbalanced dataset, especially for the minority class samples.

Support Vector Machine; Imbalanced Dataset; Under-sampling; K-means Clustering

TP311

1007-757X(2016)08-0036-04

2016.04.20）

陕西省自然科学基础研究计划资助项目（No.2015JM6347），陕西省教育厅科技计划项目（No. 15JK1218），商洛学院科学与技术研究项目（No.15sky010）

张燕（1977-），女（汉族），陕西商洛人，商洛学院，数学与计算机应用学院，讲师，硕士，研究方向：机器学习、信息安全，商洛，726000

杜红乐（1979-），男（汉族），河南洛阳人，商洛学院，数学与计算机应用学院，讲师，硕士，研究方向：机器学习、数据挖掘，商洛，726000

李楠（1981-），女（汉族），陕西渭南人，商洛学院，数学与计算机应用学院，讲师，硕士，研究方向：机器学习、数据处理，商洛，726000