APP下载

云环境中改进FCM和规则参数优化的网络入侵检测方法

2018-02-01张春琴谢立春

电信科学 2018年1期
关键词:互信息特征选择集上

张春琴,谢立春



云环境中改进FCM和规则参数优化的网络入侵检测方法

张春琴1,2,谢立春1

(1. 浙江工业职业技术学院,浙江 绍兴 312000;2. 浙江工业大学,浙江 杭州 310014)

针对云环境中的网络入侵检测问题,提出一种基于模糊推理的网络入侵检测方法。首先,利用互信息特征选择对样本特征进行降维。然后,利用提出的改进模糊均值聚类(IFCM)方法对训练样本集进行聚类,根据各样本特征与集群的对应关系获得初始模糊规则库。接着,对每个规则的前件参数和后件参数进行调优,以此获得准确的规则库。最后,基于规则库对输入连接数据进行模糊推理,对其进行分类以实现入侵检测。在云入侵检测数据集上的实验结果表明,该方法能够准确检测出网络入侵,具有可行性和有效性。

云环境;网络入侵检测;互信息特征选择;改进模糊均值聚类;模糊规则库优化

1 引言

在云计算环境中,用户通过远程连接来访问所需的计算、存储、应用等资源,且数据通常存放在共享环境中。在实际情况中可能会存在一些恶意用户对数据进行窃取或篡改。为了提高云环境中的数据安全性,有必要对云平台中的网络用户访问数据流进行实时主动的监控和防御[1]。目前,网络入侵检测系统(intrusion detection system,IDS)主要可分为两类[2]:基于数据挖掘的IDS和基于机器学习的IDS。其中,机器学习方法是基于对数据的智能学习来构建分类器,其检测性能较好,但计算量较大,很难满足实时检测的要求[3]。基于数据挖掘的IDS是通过对历史数据进行数据分析,获得一定的规律来检测入侵。其结构简单、执行速度快,然而其基于一些固定的规则,适应能力较差。为此,学者在数据挖掘中融入了模糊推理[4],即通过训练数据集挖掘出网络连接数据特征与类别相对应的模糊规则,以此对输入连接数据进行推理来判别是否为入侵行为。

对于基于模糊推理的入侵检测方法,其有效性很大程度上依赖于模糊规则库。模糊规则库的构建通常分为基于神经网络和基于聚类技术的方法[5]。其中,基于神经网络的方法结构复杂,且与网络表达的规则存在冲突。基于聚类的方法是通过对样本数据集进行聚类,获得的每个集群对应一个模糊规则。均值(-means)聚类算法[6]是常用的聚类算法,然而,其聚类中心数量和位置的初始值直接影响聚类效果。为此,参考文献[7]提出了一种改进-means聚类算法,用来获得模糊规则,其通过一个半径函数来自适应选择聚类中心,一定程度上解决了初始值的问题。参考文献[8]在初始聚类中融入了模糊理论,提出了一种基于模糊均值(fuzzy-means,FCM)聚类算法的规则构建方法,利用模糊均值聚类对训练样本进行聚类,根据各集群来生成模糊规则。然而,传统FCM仍然存在初始聚类中心选择的问题。另外,现有的基于聚类技术获得模糊规则的方法中,通常获得的模糊规则较为粗糙,为此需要对其进行细化,以提高规则的准确性。

基于上述分析,提出一种新型的模糊规则生成方法,并将其应用到云环境的入侵检测中。首先,根据训练样本聚类构建规则库。然后,基于获得的模糊规则库,对网络连接数据进行推理,以判定其类别,实现入侵检测。提出方法的主要创新点在于:提出一种改进型FCM(improved FCM,IFCM)聚类算法,融于一个聚类中心近似度量因子来解决传统FCM聚类中的初始聚类中心选择问题,以此对样本进行精确聚类,构建初始模糊规则集;为了提高规则的准确性,提出了一种规则优化方法,即通过调优每个规则的前件参数和后件参数来对其进行优化。在一个最新的云入侵检测数据集(cloud intrusion detection dataset,CIDD)中的实验表明,提出方法的检测率能够达到98%以上,具有有效性。

2 提出方法的框架

本文提出一种用于云环境中网络入侵的检测系统,可部署在实际云平台中各物理服务器上,用来监控用户远程访问。检测系统分为训练和测试阶段,其基本框架如图1所示。

训练阶段主要用来获得模糊规则。首先,由于原始数据集中的特征较多且存在冗余,所以先通过基于互信息的特征选择方法来降低特征维度。然后,利用提出的模糊聚类方法对训练数据进行聚类,用来确定模糊输入/输出的关系,从而获得模糊规则。接着,通过一个动态优化学习算法,根据规则所涉及的前件和后件参数来优化模糊规则,构建最终的模糊规则库。

在测试阶段中,根据收集的网络连接数据和模糊规则库,推理输入数据与各类的相似度来进行分类,以此实现入侵检测。

3 基于互信息的特征选择

网络连接数据具有大量的特征,冗余特征不仅增加了分类器的计算时间,而且还会降低检测准确率。为此,在输入分类器进行检测之前,需要对其进行特征降维。目前,特征选择方法主要有欧氏距离法、余弦相似度法、互信息(mutual information,MI)法等[9]。其中,互信息法是衡量两个随机变量之间相关性的一种有效方法。

3.1 互信息

互信息是两个随机变量之间关系的对称度量,输出为一个非负值,其中,零表示两个变量是统计独立的[10]。

3.2 互信息特征选择

4 提出的入侵检测方法

4.1 传统FCM聚类

FCM聚类算法是一种考虑样本模糊归属的软划分方法,其根据每个样本对所有聚类中心的隶属度进行自动聚类。

4.2 改进型FCM聚类

4.3 初始规则库构建

4.4 规则库优化

在通过聚类技术生产的规则中可能存在冗余,且规则的准确性不高。为此,本文通过细化所涉及的前件和后件参数提高规则的精确度。

这个阶段最终构建一个紧凑的模糊规则库。当云用户请求访问云服务时,该系统会将用户的连接样本作为模糊推理的输入,通过模糊规则推理出该用户是否为入侵者。

4.5 基于规则库的入侵分类

5 实验及分析

5.1 实验设置

在Intel酷睿i5处理器、2.5 GHz主频、8 GB内存和Windows 7平台上,通过MATLAB实现提出的入侵检测方法。由于条件有限,无法在实际云平台上进行实验。为此文本选择了一个云入侵检测数据集[15]进行仿真实验,其由用户远程访问云平台时可能存在的攻击数据和正常访问 数据组成。

表1 特征降维后的特征集

CIDD数据集中共包含四大类攻击,即拒绝服务(denial of service,DoS)攻击、探测(probe)攻击、远程到本地(remote to login,R2L)攻击和非授权访问(user to root,U2R)攻击。每个连接记录具有41个特征,用于描述总共24种子攻击类型。原始数据集大小为744 MB,拥有4 940 000条记录。

随机选择了20 000条记录作为实验数据集,其中,12 000条为正常数据,8 000条为入侵数据,入侵数据包含了24种子攻击类型,且每种攻击的数据记录不少于100条。将其中的60%数据作为训练集,剩下的40%数据作为测试集。基于训练集获得模糊规则,并存储在模糊规则库中。在测试阶段,对于从用户发送到云的服务请求数据,基于模糊规则库的推理决定是否允许该请求。

5.2 特征选择

若使用网络连接数据中的所有41个特征构建IDS模型,会大大增加计算量。此外,数据集中包含不相关的特征,则会影响入侵检测的准确性。因此,需要通过特征选择算法降低特征维度。本文使用MIFS算法将原始特征数量减少到12个,见表1。

另外,数据集中的特征具有不同的数据形式,因此需要对特征进行预处理,将其规范化到[0,1]。

5.3 验证实验

首先,在整个训练集和测试集上对提出的方法进行验证性实验,入侵分类的混淆矩阵见表2和表3(其中normal指正常类),其中所列结果为3次实验的平均值。可以看出,提出的方法在训练集上的平均检测率达到了98.93%,在测试集上达到了98.48%。其中,平均检测率为5种攻击类别正确分类率的平均值。由于检测模型是根据训练集训练获得,所以在训练集上的检测率略微较高。实验结果证明了提出方法的有效性。

表2 训练集上分类的混淆矩阵

此外,为了验证提出方法在不同样本数量下的检测性能。选择数量为5 000~20 000的样本集,其中各样本集里都包含与完整样本集中同比例的各种攻击样本,同样将其中60%作为训练集,其他40%作为测试集。平均检测率见表4。可以看出,在样本数量较小时,检测率较低,随着样本数量的增加,检测率有所提高并趋于稳定。

表3 测试集上分类的混淆矩阵

表4 不同大小样本集下的平均检测率

5.4 比较实验

为了进一步证明提出方法的优越性,将其与现有基于聚类技术构建模糊规则集的入侵检测方法进行比较。分别为基于传统均值聚类、参考文献[7]提出的改进均值聚类和参考文献[8]提出的模糊均值聚类的入侵检测方法。为了公平比较,在训练和测试过程中,都采用MIFS进行特征选择。在样本集数量为5 000~20 000的条件下,各种方法在训练集和测试集上的检测率如图2和图3所示。

图2 各种方法在训练集上的检测率比较

图3 各种方法在测试集上的检测率比较

可以看出,在不同样本数量下,提出方法都获得了最高的检测率。这是因为,传统均值聚类算法对初始聚类中心敏感,致使其聚类效果不好,从而在此基础上获得的模糊规则准确性也较差。参考文献[7]提出的改进型均值聚类算法在一定程度上解决了初始值问题,所以其性能比传统均值聚类优越。然而,均值聚类是一种硬性聚类方法,由于在实际应用中,某些对象不是绝对的只属于某一集群,还可能属于其他集群,某个对象与某个集群的关系是模糊的。所以基于均值聚类的方法没有参考文献[8]采用的模糊均值聚类的性能好。本文方法同样采用了模糊均值聚类,但融入了聚类中心相似度量因子,解决了其初始聚类中心选择问题,所以能够提高其聚类性能。另外,本文方法还对通过聚类获得的模糊规则集进行了优化,构建了一个更为准确的规则集,所以获得了最佳的入侵检测性能。

6 结束语

本文提出一种基于IFCM和模糊推理的网络入侵检测方法。利用提出的IFCM聚类方法对训练样本集进行聚类,获得初始模糊规则库。通过对每个规则的前件参数和后件参数进行调优以此优化规则库。基于规则库对输入连接数据进行入侵检测。在云入侵检测数据集上,将提出的方法与现有的几种聚类方法进行了比较,结果表明,提出方法在检测率方面具有优越性。

[1] 罗亮, 吴文峻, 张飞. 面向云计算数据中心的能耗建模方法[J].软件学报, 2014, 25(7): 1371-1387.

LUO L, WU W J, ZHANG F. Energy modeling based on cloud data center[J]. Journal of Software, 2014, 25(7): 1371-1387.

[2] FOSSACECA J M, MAZZUCHI T A, SARKANI S. MARK-ELM: application of a novel multiple kernel learning framework for improving the robustness of network intrusion detection[J]. Expert Systems with Applications, 2015, 42(8): 4062-4080.

[3] 石云, 陈钟, 孙兵. 基于均值聚类分析和多层核心集凝聚算法相融合的网络入侵检测[J]. 计算机应用研究, 2016, 32(2): 518-520.

SHI Y, CHEN Z, SUN B. Networks intrusion detection based on integrating k-mean clustering analysis and multilayer core-set agglomerative algorithm[J]. Computer Applications and Software, 2016, 32(2): 518-520.

[4] 陆婷婷, 韩旭. 面向MANET报文丢弃攻击的模糊入侵检测系统[J]. 电信科学, 2016, 32(10): 124-129.

LU T T, HAN X. Fuzzy intrusion detection system for MANET packet dropping attack[J]. Telecommunications Science, 2016, 32(10): 124-129.

[5] SHAMSHIRBAND S, AMINI A, ANUAR N B, et al. D-FICCA: a density-based fuzzy imperialist competitive clustering algorithm for intrusion detection in wireless sensor networks[J]. Measurement, 2014, 55(9): 212-226.

[6] 李洪成, 吴晓平, 陈燕. MapReduce框架下支持差分隐私保护的-means聚类方法[J]. 通信学报, 2016, 37(2): 124-130.

LI H C, WU X P, CHEN Y.-means clustering method preserving differential privacy in MapReduce framework[J]. Journal on Communications, 2016, 37(2): 124-130.

[7] TIAN L, JIANWEN W. Research on network intrusion detection system based on improved-means clustering algorithm[C]//International Forum on Computer Science-Technology and Applications, Dec 25-27, 2009, Chongqing, China. Piscataway: IEEE Press, 2009: 76-79.

[8] XIE L, WANG Y, CHEN L, et al. An anomaly detection method based on fuzzy-means clustering algorithm[J]. Proceedings of the International Symposium on Networking & Netwo, 2014, 24(5): 56-63.

[9] 魏莎莎, 陆慧娟, 金伟, 等. 基于云平台的互信息最大化特征提取方法研究[J]. 电信科学, 2013, 29(10): 38-42.

WEI S S, LU H J, JIN W, et al. Maximum mutual information feature extraction method based on the cloud platform[J]. Tele

communications Science, 2013, 29(10): 38-42.

[10] 徐峻岭, 周毓明, 陈林, 等. 基于互信息的无监督特征选择[J].计算机研究与发展, 2012, 49(2): 372-382.

XU J L, ZHOU Y M, CHEN L, et al. An unsupervised feature selection approach based on mutual information[J]. Journal of Computer Research and Development, 2012, 49(2): 372-382.

[11] AMIRI F, REZAEI YOUSEFI M, LUCAS C, et al. Mutual information-based feature selection for intrusion detection systems[J]. Journal of Network & Computer Applications, 2011, 34(4): 1184-1199.

[12] SONG J, ZHU Z, SCULLY P, et al. Selecting features for anomaly intrusion detection: a novel method using fuzzy C means and decision tree classification[J]. Cyberspace Safety and Security, 2013, 8(3): 299-307.

[13] 琚春华, 鲍福光, 戴俊彦. 一种融入公众情感投入分析的微博话题发现与细分方法[J]. 电信科学, 2016, 32(7): 97-105.

JU C H, BAO F G, DAI J Y. Discovery and segmentation method in micro-blog topics based on public emotional engagement analysis[J]. Telecommunications Science, 2016, 32(7): 97-105.

[14] LIU X, QIN Y, WU L. Fast and direct Karnik-Mendel algorithm computation for the centroid of an interval type-2 fuzzy set[C]//IEEE International Conference on Fuzzy Systems, June 10-15, 2012, Brisbane, QLD, Australia. Piscataway: IEEE Press, 2012: 1-8.

[15] KHOLIDY H A, BAIARDI F. CIDD: a cloud intrusion detection dataset for cloud computing and masquerade attacks[C]//Ninth International Conference on Information Technology-New Generations, April l16-18, 2012, Las Vegas, NV, USA. Piscataway: IEEE Press, 2012: 397-402.

Network intrusion detection method based on improved FCM and rule parameter optimization in cloud environment

ZANG Chunqin1,2, XIE Lichun1

1. Zhejiang Industry Polytechnic College, Shaoxing 312000, China 2. Zhejiang University of Technology, Hangzhou 310014, China

Aiming at the network intrusion detection problem in cloud environment, a method of network intrusion detection based on fuzzy inference was proposed. Firstly, it used the mutual information feature selection to reduce the feature of the sample. Then, the improved fuzzy-means clustering method was used to cluster the training sample set, and the initial fuzzy rule base was got by the correspondence between each sample feature and cluster. After that, the refine parameter and consequent parameters of each rule were tuned to obtain an exact rule base. Finally, fuzzy inference was carried out on the input connection data based on the rule base, and it was classified to realize intrusion detection. Experimental results on the cloud intrusion detection dataset show that this method can detect the network intrusion accurately, and it is feasible and effective.

cloud environment, network intrusion detection, mutual information feature selection, improved fuzzy-means clustering, fuzzy rule base optimization

TP393

A

10.11959/j.issn.1000−0801.2018005

2017−06−22;

2017−09−25

国家自然科学基金青年科学基金资助项目(No.61603211)

The Young Science Foundation of National Natural Science Foundation of China (No.61603211)

张春琴(1977−),女,浙江工业职业技术学院副教授,浙江工业大学访问学者,主要从事网络安全、云计算方面的研究工作。

谢立春(1974−),男,浙江工业职业技术学院副教授,入选浙江省“151人才工程”,主要从事网络安全方面的研究工作。

猜你喜欢

互信息特征选择集上
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
复扇形指标集上的分布混沌
Kmeans 应用与特征选择
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
改进的互信息最小化非线性盲源分离算法
基于增量式互信息的图像快速匹配方法
基于特征选择和RRVPMCD的滚动轴承故障诊断方法
基于二元搭配词的微博情感特征选择