云计算下网络异常流量分组方法研究

2015-06-11李维宇沈溶溶

今日湖北·下旬刊 2015年12期

李维宇　沈溶溶

摘要云计算下网络异常流量的管理，需要从初次分类统计中来进行合理选择分组方法。基于BIRCH算法的网络异常流量分组管理，能够在网络数据骤增等异常变化中，实现初次聚类，并就网络流量进行分组融合，减少异常流量带来的网络阻断风险。

关键词云计算 BIRCH算法流量分组方法研究

随着海量运算资源和网络平台的发展，对于云计算环境下的用户访问量的骤增带来的网络异常流量问题，一直是当前流量工程研究的重要课题。2015年11月11日以网络购物为主的访问并发峰值达到数千万，对于如此巨大的访问流量，如何从大数据流量管理中进行有效分组就显得尤为重要。当前，在大流量数据管理上，多采用MPLS分组方法，如基于不同业务类型和基于不同数据包类型来进行分组等。但对于云计算环境下，随着用户群的几何级增长，对于各类数据包、业务类型的划分已经难以分界，在提升异常流量分组效率上，迫切需要从云计算中重新进行算法优化，以实现精细化管理目标。

一、当前常用的网络流量分组方法

针对网络流量分组方法的研究，王劲松等人从基于异常流量的字节特征入手，提出对多个特征匹配的不同分组交集获取来实现分组，该方法需要从异常流量数据中进行获取特征字节，并建立特征字节库，从而来进行流量分组优化；裴杨等人从基于SVM网络流量分类方法上，来优化分组的准确率，但因SVM算法过于复杂，并不适应海量数据处理；孙韩林等人提出C4.5决策树方法，从海量数据流量分析中利用决策树方法进行问题优化，但对于不同类型的数据流量分析上，无法直接对其他类型的流量进行有效分组。针对云数据下的数据挖掘与聚类分析算法，利用BIRCH快速聚类算法，来优化网络异常条件下的数据分组效率，特别是在气象数据分析中获得较高应用。对于网络环境下的用户数据的分组，也可以通过模拟聚类的方法进行优化，为此，本文将从BIRCH算法改进中提出动态的分组方法。

二、BIRCH算法的分组原理

对于网络流量数据的分组，BIRCH算法首先通过对网络数据的提取，从用户信息及流量类型上进行聚类分组，在结合数据信息进行分组融合，获得分组效果。对于流量数据的特征提取，主要将流量数据转换为聚类分析所需分组向量，并利用BIRCH算法进行网络流量特征的用户聚类；分组融合是对不同时刻的分组进行聚类，并对聚类结果进行处理，有平衡网络流量。

（1）对网络数据流量特征的提取。

对于海量数据进行聚类分组前，需要从网络数据的特征进行选取，特别是数据相似性特征，常用的方法有马尔可夫算法、小波分析方法等，这些方法能够从网络流量数据自相似度上进行分析，不足的是选取方法较为复杂，对数据计算耗时、耗性能。Silveira等人通过对异常数据流量问题的选取方法进行改进，从区分异常流量特征上，从低纬度上进行选取即可；另外對于原始数据的差分序列方差分析，能够较好的反映数据波动问题。为此，本文将选取网络流量当前采样值和两次差分值来进行网络聚类特征分析。也就是说，对于异常网络流量特征可以表示为：（，），对于表示为流量值，对于表示数据流量采集的时刻。

（2）聚类分组方法。

根据BIRCH算法，在对海量数据进行聚类分组分析中，BIRCH是基于距离的层次聚类算法，通过引入聚类特征和聚类特征树概念，利用三元组聚类特征来进行标识，对于式中的N表示为某一节点中的数据对象个数；对于LS表示为N个对象对应的特征向量的线性和；对于S表示为N个对象特征向量的平方和。利用CF聚类特征分析方法，能够对N个用户的特征树中进行表示，即{，（，），（，）2}，其中对于聚类特征树中的分支因子B，以及阀值T的设置，是实现对特征树的平衡目标。当分支因子被限定为非叶节点中最大孩子数目时，阀值是对叶子节点中簇的最大半径进行限制。BIRCH算法首先是对整个数据信息进行扫描，并从聚类特征树的初始化中，对每一个对象与之最近的叶子节点进行关联；如果这个簇的半径大于阀值T，则该叶子节点将被分割；同时，对于特征树的建立后，根据聚集特征头，可以对原有数据进行再聚集分类，从而获得聚类结果。

（3）分组融合计算。

从聚类算法来看，聚类分组后并非是最终的结果，也不能直接进行分组优化，因为BIRCH算法所得到的分组是一种硬性分组，无法与各个用户进行关联。此时需要从多次聚类分组结果中进行差异化分析，并进行修正。由于异常网络环境下数据流量较大，对于数据流量中特征相似度较大的用户，在一定时间段内被聚类到同一分组的可能性较大。因此，可以通过对不同分组用户信息相似度计算，来对各个分组中数据进行分组融合。其融合的步骤如下：首先在进行分组之初，需要对所有用户进行分组，并将分组与其他数据分组建立相应关联。如将每一用户指定给改组的生存时间计作，其初始值为。当聚类产生分组后，需要对当前分组与新分组进行交集计算，并从当前分组中获得最大交集的新分组列为当前分组；再次对于不同用户，根据用户与前两个分组的交集计算，来获得生存时间，但不能超过；如果两个用户没有交集，但属于已有分组，则生存时间计作；当用户生存时间为 = 1时，则清除该用户，否则对用户的生存时间赋初始值。最后，对于聚类融合后，对于未被合并的分组，则计作新的当前分组。利用该方法，对于某一用户来说并不属于某一个分组，但经过多次聚类后，随着生存时间的下降则被清除。由此可见，对于分组融合就是通过生存时间的计算来获得。

三、结语

对于改进后的BIRCH算法，我们可以通过一个应用场景来进行仿真验证。利用云计算数据中心的数据，将1000个模拟用户产生的业务数据流量进行计算，选取250个用户进行异常流量分析，由此来进行网络拥塞处理。通过实验过程可知，对于异常用户的区分上，BIRCH分组方法能够实现对丢包问题、流量分组的多种处理，确保异常用户的数据流量控制比例在70%以上，有效减少丢包问题。在实际运用中，该方法将分组细心和分组方法进行优化，能够体现精细化分组和流量平衡管理。

参考文献：

[1]武鲁，王连海，顾卫东.基于云的计算机取证系统研究[J].计算机科学，2012（05）.

[2]李世明.具备web数据整合功能的负载均衡系统设计与实现[D]. 北京邮电大学，2014.

（作者单位：河南省轻工业学校）