基于优化蚁群算法的网络流量数据精准挖掘仿真①

2020-02-28

佳木斯大学学报（自然科学版） 2020年1期

(安徽三联学院，安徽合肥 230601)

0 引言

随着现代化科技的飞速快速发展，网络流量数据精准挖掘方法作为一种相对较为保守的电子网络数据管理方法，进行网络数据流量的挖掘过程中，经常会出现数据异常等问题。为解决以上问题，提出基于优化蚁群算法的网络流量数据精准挖掘仿真方法[1]。对网络流量数据挖掘过程中常见的数据识别异常等问题进行优化和改善，并对网络模糊异常数据特征进行快速识别，为解决传统网络流量数据挖掘过程中常见的数据特征挖掘准确率相对较低、数据挖掘成本相对较大等问题进行优化和改善，以期更好的识别处理数据挖掘效果[2]。根据无线传感器网络挖掘原理进行海量数据关联特征的采集和划分，在此基础上，结合网络数据挖掘窗口进行遗传数据的挖掘和分类检测，并根据检测结果进行数据空间关联性特征识别，简化数据挖掘和特征识别步骤，最终实现对网络流量数据的精准挖掘。

1 网络流量数据精准挖掘仿真

1.1 网络数据异常特征数值归类算法

(1)

若β,η分别为网络流量数据的参考数值，结合最大相似原理对挖掘到的异常数值进行规范，对分布函数运算原理进一步对异常数值波动系数进行规范，具体算法如下：

R=l-1(f(x)|g(y)-ηβ)

(2)

在上述算法中，l-1表示非线性网络流量的异常数据置信度数值，在网络流量异常数据波动系数相对较大时，需要进一步对异常数值波动距离进行计算和规范，考虑到挖掘数据的稳定性，对异常波动数值的高维空间进程优化[4]。结合聚类特征簇合并算法对网络流量数据进行模糊特征评估和区分处理，从而获取波动聚类权重数值，具体算法如下：

(3)

若在上述算法中，xi和xj分别代表网络流量数据的标准数值和异常数值，yi和yj分别代表不同维度的数据波动标准范围数值和异常数值范围数值。基于上述算法进行加权赋值处理，若标准权重和流量数据异常特征数值进行对比[5]。若wi代表网络流量数据中的不同维度异常数据权重，异常波动规范数值系数越高则赋权数值越低，即二者呈反比关系[6]。进一步对二者关系标准进行计算，若k为加权数值，p为异常波动规范数值，且二者满足：

(4)

进一步对网络流量数据的相似性加权特征聚类数值进行规范，结合网络流量数据之间的特征相似度对挖掘数据进行归一化处理，对采集到的异常数据集进行异常数据的模糊特征去除处理，并对网络流量异常数据精准挖掘和特征识别的鲁棒性进行提高，若给定非线性初始数据特征数值为z，则网络流量挖掘目标进行搜索，具体的网络数据特征搜索算法为：

(5)

若uei表示网络流量数据挖掘过程中的特征蚁群数值空间，其特征向量可记为R，δ为网络数据挖掘过程中的初始特征衅侧条件，结合非线性原理对网络流量数据进行分类，则对网络流量数据挖掘精准性概率模型进行计算，具体算法为。

(6)

在上述算法中，计算所得的概率数值越大，则数据特征相似性越高，进一步对数据挖掘的非线性数据特征进行转移，从而获取网络流量正常数据挖掘概率数值，若a为相似性常数，在网络流量数据特征挖掘的过程中，对聚类特征进行划分，其中分类规划到第n个正常特征数据的概率，相当于对任意一个网络流量特征数据相似度的加权距离的采集数值，为了有效的去除非线性网络流量数据模糊特征干扰，对异常数据特征进行归一化处理，具体算法如下：

(7)

基于上述算法可有效实现对网络数据异常特征数值的有效归类，并根据计算结果实现对网络流量数据进行挖掘，为保障挖掘结果的有效性，需要进一步对挖掘步骤进行改善[6]。

1.2 网络流量数据挖掘步骤优化

进一步对网络流量数据挖掘步骤进行优化，建立一个相对更加完整数据管理平台，将采集到的特征数据传输至平台中[7]。在数据挖掘过程中中数据可随机抽取待挖掘数据，数据管理作为网络流量数据挖掘过程中的关键环节，其对数据采样的优劣产生直接影响，因此对数据采集平台结构进行优化，具体结构如图1所示：

图1 网络数据流量采集平台

图2 网络流量数据处理结构

在上述网络数据采集平台中随机抽取特征数据，为保障数据抽取的准确性，进一步对其挖掘步骤进行规范，具体如下：

我吃过竹笋，却不知道它一夜之间竟可长这么高；旁边那块空地，也长了几根竹子，昨晚要是睡那儿，竹笋突然冒出来，可能会把人伤了；原来竹子拔节，声音这么响，喀喀喀的。

步骤1：抽取被选择数据。在数据抽取的过程中，具有较为重要的影响，从平台结构中多个初级处理接口进行数据源特征勘查和采集工作，并对海量网络流量数据特征进行勘察，并采集网络流量数据中的异常数值样本。

步骤2：规范数据挖掘指标。在完成对数据特征的抽取后，进一步对数据挖掘指标进行规范，基于数据平台中的特征数值进行指标参照数值规范，随机抽取数据库指标进行对比检测[8]。在对数据特征进行规范的过程中，需要对海量数据特征进行泛化处理，结合对维度附加属性归纳原理进行指标规范。

步骤3：数据挖掘处理优化。结合多维数据特征联机原理进行挖掘，对特征数据进行有效集合和分类，抽取特征数据，对特征属性进行附加处理并对其挖掘标准进行归纳和泛化处理，并对处理后的数据关联度进行存储，并从高到低的总结数据特征之间的深度关联性关系[9]。

基于以上步骤进一步对网络交流数据精准性进行挖掘，为保障数据挖掘的有效性进一步在数据挖掘处理平台中添加UI表示层、DLL业务逻辑层和DAL数据访问层等，具体功能如下：

网络流量数据UI表示层：网络流量数据UI表示层的结构设计主要包括对网络流量数据信息特征的采集和存储，对已挖掘的特征数据进行归类支持和服务。

网络流量数据逻辑评价层：该模块的设计主要是通过对挖掘后的网络流量数据特征信息进行分类，划分数据逻辑关系层，结合Apriori算法进一步对数据特征进行访问和挖掘，从而达到对数据挖掘质量进行有效调整的目标[10]。

网络流量数据检测层：在对网络流量数据进行检测的过程中，进一步对数据特征进行挖掘评价，并根据挖掘评价结果进行数据特征的调整、传输和存储，从而达到实现对网络流量数据挖掘的目标。

基于以上结构对网络流量数据挖掘结构进行优化，具体结构如图2所示：

(8)

设随机选取数据挖掘样本，记为n，若E为可挖掘到的最佳信息数值，则：

(9)

若在上述算法中，Q为可挖掘到的数据特征信息熵，n为数据挖掘前后差异值。结合蚁群算法和层次分析原理对数据挖掘质量等级进行计算，针对采集到的数据特征样本对数据流量变化标准差值进行计算。算法如下：

(10)

根据以上算法可有效实现对数据挖掘步骤的合理设置，达到最大程度上优化和改善数据挖掘数据挖掘效果，提高数据挖掘质量的研究目标。

1.3 网络流量数据挖掘的实现

利用蚁群算法进一步进行挖掘处理，把采集到的特征数据源信息按照特征数值进行划分，保证网络流量数据特征与波动系数成正常比例，从而控制异常数据变化数值。进一步对网络流量数据挖掘质量进行计算，设数据挖掘过程中的产生的最小特征支持度为A，整体数据挖掘变化数据记为C，x1，x2，x3，x4，x5，x6表示数据变化数值，a，b，c分别表示数据挖掘质量等级，则：

(11)

(12)

(13)

(14)

采取数据特征关联规律、排序挖掘算法对网络流量的中间动作数据进行挖掘处理。结合蚁群算法和Aprepem平台进行关联规律的规范处理，根据采集到的数据特征向量支持度下限对网络流量数据进行关联规律的挖掘，并在数据挖掘过程中临时设定相应的数据挖掘限制条件，从而更好的确保数据挖掘的关联规律，保证网络流量应用特征的准确分类，为保障数据挖掘和特征分类的有效性，对数据挖掘流程进行规范，具体如图3所示。

图3 网络流量数据挖掘流程优化

基于以上流程进一步对网络流量数据进行挖掘，结合计算机终端电子存储设备，对海量的碎片化数据噪声数值和模糊信息进行过滤处理，建立相应的空间二维坐标，并分析网络流量特征的整体性，对计算机网络流量挖掘管理平台及数据挖掘管理平台进行优化设计，具体见图4：

图4 数据挖掘管理平台

图5 传统方法检测结果

基于以上步骤可有效实现对网络流量数据的合理挖掘，简化数据挖掘流程，提高数据挖掘准确性和时效性。

2 实验结果分析

为了更好的检测基于优化蚁群算法的网络流量数据挖掘效果，在相同环境下结合传统，数据挖掘方法进行对比检测，为保障检测结果真实有效，对检测环境和实验参数进行统一设置。

图6 方法检测结果

2.1 实验环境

实验平台选择了ASP.NET WEB数据开发平台，WEB标准网站，XHTML语言，NET Frame work存储器，ASP.NET应用程序，B,J Script NET数据运行库。Visual C++6.0作为实验研发工具，选取2018年10月1日早七时至10月10日晚19时用网高峰期内的网络流量数据采集数值作为实验研究对象，并对两种方法下的数据特征的模式归为一个集合，记为：

hn=[sup port(V),congfidence(Y)]

(15)

其中数据挖掘的限制条件为V，数据挖掘兴趣度为Y。基于上述算法进行数据挖掘波动数值的检测，并进一步对实验参数进行设计，具体如下：

表1 实验参数

2.2 实验结果

基于以上实验环境和实验参数进行对比检测实验，通过对数据挖掘过程中干扰度对波频影响程度进行挖掘效果的展示，并对检测数值进行记录，绘制成图，具体的实验检测结果如图5，6所示：

传统方法数值波动范围在±15之间，而所提方法数值波动范围在±5之间，波动范围越小，检测精准度越高。

2.3 实验结论

观察以上检测结果不难发现，在相同干扰度影响条件下，传统数据挖掘方法波动数值变化远远超出标准范围，由此证实，传统方法数据挖掘精确性相对较差。而反观挖掘方法检测结果可知，基于优化蚁群算法的网络流量数据挖掘仿真检测结果波动数值始终处于标准波动范围内，由此证实，基于优化蚁群算法的网络流量数据挖掘仿真具有更高的准确性，充分满足研究要求。