APP下载

遗传模糊系统结合迭代规则学习的网络入侵检测方案

2016-10-18马勇

微型电脑应用 2016年6期
关键词:遗传算法遗传规则

马勇

遗传模糊系统结合迭代规则学习的网络入侵检测方案

马勇

针对计算机网络中安全性问题,提出一种遗传模糊系统结合迭代规则学习的网络入侵检测方案。首先,通过一种启发式过程来确定每个模糊if-then规则后件类和确定性分数。然后,利用遗传算法的交叉和变异操作来进化模糊系统的规则,形成遗传模糊系统。最后,利用迭代规则学习算法优化遗传模糊系统的规则库,获得最优模糊模型,实现入侵检测。在DARPA数据集上进行实验,结果表明该方案能够精确的检测U2R、R2L、DoS和PRB类网络攻击,具有很高的安全性。

网络入侵检测;遗传模糊系统;迭代规则学习;规则库优化

0 引言

当前计算机网络尽管具有多重安全策略,譬如,访问控制、加密以及防火墙的应用,然而,网络安全的漏洞还是与日俱增。因此,迫切需要智能的入侵检测系统(Intrusion Detection System,IDS)来自动地检测新型的入侵行为[1]。

基于模糊if-then规则[2]的模糊系统在很多应用领域已得到成功应用。学者们也提出了多种基于模糊系统的IDS,例如,文献[3]提出一种基于模糊规则学习模型的入侵检测方案,创建了基于权重的模糊检测规则,并引入一种反馈学习算法,用于对检测规则的改进。文献[4]提出一种基于模糊关联规则挖掘的入侵检测方案,实现了从数据集属性到模糊映射的过程,并利用K-means聚类算法为量化属性建立模糊集合和模糊隶属函数,增强关联规则的客观性。

一般情况下,若模糊模型的精确性较高,其解释性相对较差。而具备较高解释性的模糊模型,其精确性又较低[5]。由于模糊逻辑的知识表达能力与进化计算的全局自学习能力可以互补[6]。所以,可引用进化计算来改进模糊系统。其中,遗传算法是进化计算理论体系中最具代表性的算法,因此可形成一种有效的遗传模糊系统[7]。然而,传统遗传模糊系统中,通过遗传算法优化模糊模型中的单条规则。但是,单条规则并不能表示整个模型规则的性能,且编码方式对于单条规则没有局部寻优能力,容易造成获得的模糊模型为全局次优解[8]。

本文针对传统遗传模糊系统的缺陷,提出一种融合迭代规则学习(Iterative Rule Learning,IRL)算法的改进型遗传模糊系统,用于网络入侵的检测。首先,通过一种启发式过程来确定每个模糊if-then规则后件类和确定性分数。然后,利用Michigan型遗传算法进化模糊系统的规则,进行协同进化,获得遗传模糊系统。最后,通过迭代学习算法优化规则库,最终形成最优模糊模型,实现网络入侵检测。实验结果表明,本文方案能够精确地检测网络攻击。

1 基于遗传模糊系统的分类

在遗传模糊系统中,将遗传算法与模糊逻辑相结合,利用遗传算法的全局自学习能力来弥补模糊逻辑中规则表达能力的缺陷。

本文中,首先通过一种启发式过程来确定每个模糊if-then规则后件类和确定性分数。然后,利用Michigan型遗传算法,通过交叉和变异操作来进化模糊系统的规则,产生高分类率的模糊规则,以此产生协同进化后的遗传模糊系统。

1.1模糊规则

本文假设模式分类问题为具有连续属性的n-维模式空间中的c-类问题。同时还假设给定m个实向量xp=(xp1,xp2,,xpn),p=1,2,,m ,并将其作为来自c个类的训练模式c≤m。

由于模式空间为[0,1]n,所以每种模式的属性值为xpi∈[0,1],p=1,2,,m;i=1,2,,n 。在本文中,将每个数据集的属性值规范化到单位区间[0,1]。

本文提出的模糊分类器系统中,使用如下形式的if-then规则。xxA

规则Rj:If1为Aj1,…,n 为jn,Then类Cj满足CF=CFj。

其中,Rj为第j个if-then规则的标签,Aji,,Ajn为单位区间[0,1]上的前件模糊集,CjR为后件类(即给定C类中的一类),CFj为模糊if-then规则j的确定性分数。本文将一组典型的语言值用作图1中的前件模糊集,并通过把每种属性域划分为对称的三角模糊集,明确图1中每个语言值的隶属函数。值得注意的是,对于特定模式分类问题,本文在模糊分类系统中可以使用任何定制的隶属度函数,如图1所示:

图1 五个语言值的隶属度函数(S:小,MS:中小,M:中,ML:中大,L:大)

在n维模式分类问题中,模糊if-then规则的总数为5n。当属性的数量(即n)很大时(如n=n41的入侵检测问题),有可能在单模糊规则库中使用所有5个模糊if-then规则。

本文模糊分类系统搜索相对数量较小的具有高分类能力的模糊if-then规则(如100个规则)。由于每个模糊if-then规则的后件类和确定性分数可以通过简单的启发式过程从训练模式中确定,所以本文模糊分类系统的任务是,为一个模糊if-then规则集生成前件模糊集的组合。然而,该任务对于高维模式分类器问题来说是很难的,因为搜寻空间涉及5n个组合(如在n=13时,多于1000万个)。

为此,在本文模糊分类器系统中,通过利用启发式过程来确定每个模糊if-then后件类Ci和确定性分数CFj。步骤如下描述。

1.2Ci和CFj的确定

步骤1:通过下式运算,计算具有模糊if-then规则Rj的每个训练模式的兼容性如公式(1):

公式(1)中,μji(xpi)为第p个模式中第i个属性的隶属度函数。

步骤2:对于每个类,计算具有模糊if-then规则Rj的训练模式的兼容性分数如公式(2):

公式(2)中,βClass(Rj)为类h中具有模糊if-then规则Rj的训练模式的兼容性分数总和。NClass为对应类为h的训练模式的数量。

步骤3:找出具有最大βClass h(Rj)值的类如公式(3):

如果两个或更多的类具有最大值,则不能确定唯一模糊if-then规则的后件类Cj。在这种情况下,令Cj为φ。如果没有与模糊if-then规则Rj相配的训练模式(即,对于h=1,2,,c ,βClassh(Rj)=0),则还将后件类Cj指定为φ。

步骤4:如果后件类Cj为φ,则令模糊if-then规则Rj的确定性分数CFj=0。否则,用以下公式计算确定性分数CFj如公式(4)、(5):

通过本文提出的启发式过程,可以指定任意前件模糊集组合的后件类和确定性分数。

本文模糊分类器系统的任务是生成前件模糊集的组合,用以生成具有高分类能力的规则集S。然后,通过S中的单优先规则Rj 来分类xp=(xp1,xp2,,xpn),其确定如公式(6):

也就是说,优先原则选出具有最大兼容性和确定性分数CFj。如果不存在与输入的模式xp一致的模糊规则(即,对于VRj∈S ,μj(xp)=0),则拒绝分类。

本文中,将每个模糊if-then规则编码为字符串。利用下面的符号来表示五个语言值:1:小;2:中小;3:中;4:中大,5:大。例如,若模糊if-then规则被编码为“1342”,即x1为小,x2为中,x3为中大,x4为中小,则类cj满足CF=CFj。

1.3遗传算法进化模糊规则

本文中利用的Michigan型遗传模糊系统中,遗传算法首先根据问题的分类数,预先给定一个冗余的初始聚类数c,即模糊模型的规则数。然后,初始化种群,初始种群由模糊聚类所产生的初始模糊模型采用实数编码方式构成[9]。

随机选择种群中的染色体Ri,其适应度计算方法为:根据该染色体所代表的模糊规则的后件类标,计算训练样本中属于该类的样本数,设为Ni。计算该条规则对此Ni个样本的错误划分数Ei。计算该条规则的适应度函数值P(Ri)=Ei/Ni。

Michigan型遗传模糊系统的执行步骤如下:

步骤1:利用聚类算法产生有c条模糊if-then规则的初始模糊模型,由初始模糊模型编码产生初始种群。

步骤2:计算当前种群中的每一条染色体的适应度函数值。

步骤3:根据每条染色体的适应度值,通过二进制锦标赛选择、交叉和变异产生Nreplace条新染色体,其中交叉和变异率预先设定。

步骤4:利用新产生的Nreplace条新染色体替代当前种群中Nreplace条适应度较低的染色体,产生下一代种群,并计算该种群对于训练样本的错误划分数。

步骤5:重复步骤2-4,直至达到最大遗传代数为止。

最终,把对样本错误划分数最小的种群作为所获得的最优模糊模型。

2 融合迭代规则学习算法改进遗传模糊系统

本文针对传统遗传模糊系统的缺陷,提出一种基于迭代规则学习(IRL)的遗传模糊系统,其是遗传分类方法的一种升级算法。通过调用遗传模糊规则生成算法,以增量的方式创建模糊规则库。每次迭代时,选出对当前分布具有最好分类效果的模糊规则,并将其加入模糊规则库,如图2所示:

图2 改进的遗传模糊分类器的体系结构

本文将迭代规则学习算法应用到模糊规则库系统设计中。由于本文进化算法一次优化一个模糊分类器规则,所以模糊规则库是以增量的方式生成。升级算法利用新规则能够有效减少分类器中训练实例的权值。因此,下一条规则的生成过程主要专注于对目前未涉及或分类错误的实例,以给出解释性的模糊规则。模糊规则的确定度反映了当升级算法分配规则类的相对强度。

在上面的学习框架中,本文提出的适应度函数如公式(7)~(16)所示:

其中,

f1:规则R1(第一个目标)所覆盖的训练实例数。

wk:反映训练集中实例xk频率的权值。

ci:Ri的类标签。

kcov:一个实数,表示规则应覆盖的部分实例的数量。

f2:规则的通用性(第二个目标)。:规则R1所覆盖的正确分类加权实例的数目。:规则R1所覆盖的错误分类加权实例的数目。

k:一个单独规则所制造的错误的最大容忍度。

f3:第一个一致性准则(第三个目标)。:不考虑权值wk时,错误分类实例的数目。:不考虑权值wk时,正确分类实例的数目。

f4:第二个一致性准则(第四个目标)。

根据方程(17)和(18)计算每个模糊规则的确定性因子如公式(17)、(18)所示:

根据方程(19)改变训练样本的权值如公式(19)、(20):

3 实验及分析

3.1实验环境

本文利用国际标准入侵检测评估数据集DARPA[10]上进行实验。数据库由正常和恶意通讯相关的大量网络连接组成,每条连接用41维的特征向量表示,并将连接标记属于5类中的哪一类。这些类中的一个子类为正常类,其余为4个为不同的入侵类。4种入侵类分别为:探测(PRB)攻击、拒绝服务(DoS)攻击、非法远程闯(R2L)攻击和非法提升权限(U2R)攻击。这些入侵类中包含了计算机网络中22种不同的攻击,4个入侵类的样本数如表1所示:

表1 4种不同入侵类中不同类攻击的分类

本文从这些数据集中选择650个样本作为训练集,选择6500个样本作为测试集,训练和测试集样本数量如表2所示:

表2 训练和测试集样本数量

在本文提出的基于遗传模糊系统的IDS中,设定遗传算法所使用的参数如下:种群大小为100;交叉概率为0.9;变异概率为0.1;最大遗传代数为20。迭代学习算法中的参数设定为:规则涉及的实例分数(kcoov)为0.5;单独规则产生的错误的最大容忍度(k)为0.2。

3.2性能分析

首先,对本文IDS系统进行入侵检测性能分析实验,本文遗传模糊系统分类网络的混淆矩阵如表3所示:

表3 本文IDS入侵检测的混淆矩阵

可以看出,本文系统对于正常类、U2R、R2L、DoS和PRB类的分类准确率分别为90.8%、81.4%、83.2%、97.8%和83.9%,整体平均准确识别率达到了87.36%。这说明,本文IDS具有较高的正确检测率。

然后,将本文系统与现有入侵检测方案:文献[3]和文献[4]方案进行比较。各种IDS的性能比较如表4所示:

表4 各种IDS的入侵检测分类准确率比较

可以看出,本文IDS的性能在R2L和DoS类的分类率明显高于其他方案,整体准确分类率也远远高于其它方案,分别比文献[3]和文献[4]方案性能提高了10.06%和6.5%和。这是因为本文使用的基于迭代规则学习改进型遗传模糊系统的IDS比其他方法更可靠。

4 总结

本文提出一种遗传模糊系统结合迭代规则学习的网络入侵检测方案。通过一种启发式过程来确定每个模糊if-then规则后件类和确定性分数。利用遗传算法的交叉和变异操作来进化模糊系统的规则,形成遗传模糊系统。利用迭代规则学习算法优化遗传模糊系统的规则库,获得最优模糊模型,实现入侵检测。实验表明,本文方法对U2R、R2L、DoS和PRB类攻击的整体检测率达到了87.36%,具有很高的性能。

在今后工作中,将考虑使用多目标演化模糊系统来提取一个易于理解的模糊分类器,进一步提高本文IDS性能。

[1] 田志宏, 王佰玲, 张伟哲,等. 基于上下文验证的网络入侵检测模型[J]. 计算机研究与发展, 2013,50(3):498-508.

[2] 李晶皎, 许哲万, 王爱侠,等. 基于移动模糊推理的DoS攻击检测方法[J]. 东北大学学报:自然科学版,2012, 33(10):1394-1398.

[3] Elhag S, Fernández A, Bawakid A, et al. On the combination of genetic fuzzy systems and pairwise learning for improving detection rates on Intrusion Detection Systems[J]. Expert Systems with Applications, 2015,42(1):193-202.

[4] Khamphakdee N, Benjamas N, Saiyod S. Improving Intrusion Detection System Based on Snort Rules for Network Probe Attacks Detection with Association Rules Technique of Data Mining[J]. Journal of Ict Research & Applications, 2015, 8(3):234-250.

[5] 武玉刚, 秦勇, 宋继光,等. 基于关联规则的入侵检测算法研究综述[J]. 计算机工程与设计, 2011,32(3):834-838.

[6] 周豫苹, 方建安. 神经模糊理论在入侵检测系统中的应用研究[J]. 微电子学与计算机, 2010, 27(9):126-129.

[7] Hassan M M M. Current Studies On Intrusion Detection System, Genetic Algorithm And Fuzzy Logic[J]. International Journal of Distributed & Parallel Systems, 2013,4(2):79-91.

[8] 朱长江, 柴秀丽. 基于改进遗传算法的模糊聚类研究及应用[J]. 科学技术与工程, 2013, 13(10):2863-2866.

[9] Acampora G. Exploiting timed automata based fuzzy controllers for designing adaptive intrusion detection systems[J]. Soft Computing, 2012, 16(7):1183-1196.

[10] Beigh B M. A New Classification Scheme for Intrusion Detection Systems[J]. International Journal of Computer Network & Information Security, 2014, 6(8):158-169.

A Network Intrusion Detection Schemer Base on Genetic Fuzzy System and Iterative Rule Learning

Ma Yong
(Sichuan Engineering Technical College, Deyang 618000, China)

For the issues that the security problem of computer network, a network intrusion detection schemer base on genetic fuzzy system and iterative rule learning is proposed. Firstly, a heuristic procedure is set to determine the consequent class and the certainty score of each fuzzy if-then rule. Then, the rules of fuzzy system are evolved by crossover and mutation operations of the Michigan genetic algorithm, to generate the fuzzy rules system. Finally, the iterative rule learning is used to optimize the genetic fuzzy system rule base, to obtain the optimal fuzzy model. Experiments on DARPA data sets show that the proposed scheme can accurately detect U2R, R2L, DoS and PRB attacks, and has high security.

Network Intrusion Detection; Genetic Fuzzy System; Iterative Rule Learning; Optimize Rule Base

TP393

A

1007-757X(2016)05-0025-04

2016.01.02)

四川省高校重点实验室项目(2014WZY05)

马 勇(1959-),男(汉),四川什邡人,四川工业职业技术学院,电气信息工程系,副教授,研究方向:网络安全、web挖掘等,德阳,618000

猜你喜欢

遗传算法遗传规则
非遗传承
撑竿跳规则的制定
数独的规则和演变
还有什么会遗传?
还有什么会遗传
还有什么会遗传?
让规则不规则
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
TPP反腐败规则对我国的启示