APP下载

基于自适应的遗传优化K-means聚类算法的智慧校园网络入侵检测算法设计

2023-01-07张露露

平顶山学院学报 2022年5期
关键词:网络流量遗传聚类

张露露,束 宇

(1.马鞍山学院 腾讯云大数据学院,安徽 马鞍山 243000;2.安徽商贸职业技术学院电子商务学院,安徽 芜湖 241000)

0 引言

网络时代,互联网技术不断发展并应用到人类社会的各个方面,改变着人类生产、沟通、学习等方式.基于互联网,以物联网为核心的智慧校园,给我们呈现出一个以安全为前提,以稳定为基础,以环保、节能为目标的校园网络环境[1].智慧校园网络为学校师生提供智慧消息、智慧学习、智慧生活、智慧办公等服务,其网络的安全对智慧校园有效运作至关重要.

智慧校园网络入侵检测系统就是要分析并识别异常流量中入侵攻击流量的特征,利用流量处理来过滤异常流量并测试当前聚积流量的拥塞控制特性,恢复被误判的流量[2].入侵检测系统最重要的就是构建一个适用于智慧校园网络的入侵检测流量分析算法,根据流量分析算法建立一个分布式流量监测原型:基于网络流量在正常或异常状况下所表现出的不同状态,结合试验环境进行流量分析,从而建立一个可以实时处理网络内部多台关键服务器及电脑异常流量的流量监测系统.

随着互联网技术日益提升,网络入侵手段日新月异,入侵检测系统存在漏报现象和误报率高等问题.笔者引入数据挖掘技术,将基于自适应的遗传优化K-means聚类算法引入智慧校园网络入侵检测系统,在相同的环境条件下获得更佳的检测效果.

1 基于网络流量的非线性回归算法的入侵检测

1.1 网络流量建模

网络流量随时间变化呈现一定的规律性,而回归分析预算法是研究一个应变量对一个或多个自变量的依赖关系,通过给定自变量值来估计和预测应变量均值的一种预测方法.因此,可以借助回归分析预算法,随着时间轴后移来预测将要产生的流量.

1.2 一元非线性回归算法

网络流量预测是随着时间轴后移来预测流量这个波动值,其数据模型符合一元非线性回归函数,因此通过适当的变量变换,可将其化为一元非线性回归来处理.流量是一个波动的数值,其函数类型和s型曲线非常相似.所以以s型曲线作为其预测模型(设x为自变量,其中y为随机误差,a,b为回归系数).

(1)

1.3 基于网络流量的非线性回归算法的异常预测

通过网络数据包捕获模块获得网络流量,并按时间片划分采样区间,利用非线性回归算法预测后续时间片的网络流量,再与实际网络流量对比.基于网络流量的非线性回归算法的异常预测测试结果见表1.以20 min内的网络流量为数据样本,每2 min为一个时间片,共划分10个时间片,以前5个时间片作为采样依据推测后5个时间的网络流量,并与采样的后5个时间片实际网络流量进行对比,分析其误差率(见表1).

表1 非线性回归算法异常预测

根据非线性回归算法异常预测(图1),预测流量变化趋势符合实际流量变化,但是预测流量值与实际网络流量值存在较大误差.

图1 非线性算法实验结果

2 基于自适应的遗传优化K-means聚类算法的入侵检测

在入侵检测系统的基础上,引入聚类分析模块,构建基于自适应的遗传优化K-means聚类算法[3]的入侵检测系统模型,如图2所示.

图2 基于自适应的遗传优化K-means聚类算法的入侵检测系统模型

K-means是经典聚类算法,算法思想简单,有效而且快捷,但是也存在以下不足之处:这种方法对初始种群值和输入顺序敏感,容易陷入局部最优[4].笔者引入自适应的遗传优化策略,通过自适应策略调整的Pc和Pm可以在适当的时候扩张种群,保持种群多样性,使算法获得良好的聚类效果.

2.1 K-means聚类算法的基本思想

K-means算法是一种分割聚类算法,它以平均值作为类中心,以相似性作为聚类原则,把数据对象划分到与其最相似的簇中,使簇中每个数据对象到该簇中心的关系最紧密,从而使生成的簇尽可能地紧凑和独立[5].

算法要求用户对于给定的n个数据对象集,首先确定最终要划分的聚类数目k,然后从n个对象中任意选取k个点作为聚类中心,分别计算剩余的n-k个数据对象到k个聚类中心的距离,根据就近原则划分对象,把每个对象划分到最近的聚类中[6].根据当前聚类结果计算新聚类中心,通过聚类目标函数评价聚类效果.依据聚类目标函数值进行迭代,每一次迭代结果的目标函数值减小,每一次迭代得到的类更加紧凑密集,并且类内对象的相似性更大,类间对象的相似性更小.

该聚类算法思想简单,有效而且快捷,但是也存在不足之处,这种方法对初始种群值和输入顺序敏感,容易陷入局部最优[7].

2.2 自适应的遗传优化K-means聚类算法

虽然遗传算法可以优化K-means聚类算法,但在实际优化中仍然存在一些问题,如容易陷入早熟等问题.针对这些问题,笔者采用自适应策略动态调整参数,使算法有效地执行[8].

自适应算法能够在算法执行过程中适时地动态地调整遗传算法的交叉概率Pc和变异概率Pm.如果群体中某个体的适应度值高于群体的平均适应度值,要将该个体的Pc和Pm调整到比较低,将该个体基因直接保留到下一代中;如果某个体的适应度值低于群体的平均适应度值,要将该个体的Pc和Pm调整到比较高,将该个体淘汰,不让其进入下一代中.由此可见,通过自适应策略调整的Pc和Pm可以在适当的时候扩张种群,保持种群多样性,进而保证遗传算法避免出现早熟问题.

交叉概率自适应调整策略如下:

(2)

变异概率自适应调整策略如下:

(3)

2.3 基于自适应的遗传优化K-means聚类算法的异常预测

对引入自适应的遗传优化K-means聚类算法的智慧校园网络入侵检测系统进行实验测试,测试结果见表2.同样以20 min内的网络流量为数据样本,每2 min为一个时间片,共划分10个时间片,以前5个时间片作为采样依据推测后5个时间片的网络流量,并与采样的后5个时间片实际网络流量进行对比,分析其误差率(见图3).

图3 基于自适应的遗传优化K-means聚类算法实验结果

根据自适应的遗传优化K-means聚类算法预测(图3),预测流量变化趋势符合实际流量变化,同时预测流量值误差小.与非线性回归算法异常预测相比,具有更有效的网络流量预测能力,不论是预测流量趋势还是预测流量值均符合实际网络流量情况.

2.4 实验结果比较

对比上述两个实验结果,发现引入自适应的遗传优化K-means聚类算法后,入侵检测系统所预测的流量始终是紧接着采样空间的那个时间段的流量,预测出的网络流量要更加准确.

3 结论

智慧校园网络入侵检测系统基本上都是基于异常检测技术或误用检测技术的,由于异常检测技术和误用检测技术都有不可克服的缺点,入侵检测效果有限.笔者提出基于自适应的遗传优化 K-means聚类算法的模型很好地克服了它们的缺点,较好地解决了问题.

猜你喜欢

网络流量遗传聚类
非遗传承
基于多元高斯分布的网络流量异常识别方法
大数据驱动和分析的舰船通信网络流量智能估计
还有什么会遗传?
还有什么会遗传
还有什么会遗传?
基于K-means聚类的车-地无线通信场强研究
大数据环境下的网络流量非线性预测建模
AVB网络流量整形帧模型端到端延迟计算
基于高斯混合聚类的阵列干涉SAR三维成像