改进机器学习算法在网络数据安全风险预测中的应用

2020-03-19韩高峰钟元权

内蒙古民族大学学报(自然科学版) 2020年1期

韩高峰，钟元权

（安徽文达信息工程学院计算机工程学院，安徽合肥 230000）

0 引言

随着网络技术的发展，采用通信技术进行组网学习，提高数据实时转发和控制能力，在进行网络组网设计中，大量的数据比特序列流通过网络进行传输和收发控制，由于网络组网的开放性以及节点分布的随机性，导致网络通信容易受到入侵，使得网络的安全性受到威胁［1］.需要对网络的数据安全风险进行有效预测，结合大数据挖掘和信息融合技术，实现网络的安全风险预测，提高网络的抗攻击能力.研究网络的数据安全风险预测方法受到人们的极大关注［2］.

对网络数据安全预测研究是建立在对网络数据的特征提取和异常性分析基础上，采用谱分析和大数据关联规则挖掘技术，进行网络数据的风险异常特征提取，其中，文献［3］提出一种基于CMA调制的移动传感网络数据传输安全优化控制技术，采用波特间隔均衡控制方法，进行无线网络的输出信道均衡设计，采用小波降噪方法进行信道码间干扰抑制，实现网络数据安全预测，提高输出的均衡性和抗干扰能力，但该方法的实时性不好，对多径干扰的抗干扰性不强.文献［4］中提出一种基于非线性失真单周控制无线通信网络大数据风险预测算法，通过最优分集均衡配置方法进行信道输出寻优控制，提高大数据传输和调度的安全性和风险预测能力，但该方法的计算复杂度较高.针对上述问题，本文提出一种基于改进机器学习算法的网络数据安全风险预测算法.首先构建网络的数据传输信道分布模型，提取网络传输码元比特流的安全风险数据统计特征量，然后结合关联特征挖掘方法进行网络数据的安全风险指向性预测，采用机器学习算法进行网络安全风险预测中的收敛性控制，实现网络数据安全风险预测.最后进行仿真实验分析，得出有效性结论.

1 网络数据的统计分析及特征提取

1.1 网络数据的统计分析

为了实现网络数据安全风险预测，需要首先进行网络传输大数据的统计特征分析，对进行网络传输比特序列数据的统计分析［5］，采用一个多元统计特征方程描述网络传输比特序列数据的高维空间存储状态模型为：

其中，0 ≤p(ai)≤1(i= 0，1，2，…，m)且表示网络传输比特序列数据的关联规则特征分布，通过数据的离散解析化处理，得到网络传输比特序列数据的分布特征信息熵为：

对于一个连续的网络传输比特序列数据随机采样序列，每个空间解向量对应网络传输比特序列数据的特征训练子集Si(i= 1，2，…，L)，令xn+1=μxn(1-xn)是一个网络传输比特序列数据随机采样序列的统计学模型的共轭解，满足初始值特征分解条件，其中k= 1，2，…，L.对于一组多元变量的网络传输比特序列数据统计序列x（n），由此构建网络传输比特序列数据的存储结构模型如图1所示.

对高维重构后的网络传输比特序列数据信息流通过关联规则挖掘方法提取数据的标签属性特征量，采用自适应学习方法，进行数据聚类过程中的聚类中心调节［6］，得到数据分类的聚类中心调节函数为：

其中，xj(t)表示网络传输比特序列数据先验信息在第t代的第j个聚类中心的输出标签属性，lj(t)表示第t代学习后在第j个聚类中心的输出标签属性，由此构建网络的数据传输信道分布模型，提取网络传输码元比特流的安全风险数据统计特征量.

1.2 特征提取

在进行网络数据的统计分析的基础上，进行特征提取分析，根据风险统计分布特征提取结果进行融合聚类处理，假设高维相空间重构模型中极限学习机的迭代次数为N，其中第i代极限学习机学习的初始聚类中心位置(xi，yi)，对应的网络数据的分类决策函数为f((xi，yi))，根据惯性权重优化控制方法，采用神经网络分类器进行网络数据的主特征提取和分类识别，神经网络分类器的输入层的权重为，隐含层的自适应加权权重为，采用联合特征识别方法，对网络数据分类的主特征量进行极限学习和自适应加权，记它们的权值为，复制高权值的神经元集，在网络的传输信道中进行网络流量采集，构建网络入侵的传输信道模型，得到网络风险入侵特征信息：

已知a(t) ≥|s(t)|，表示a(t)在网络风险入侵检测的包络幅值，当最大包络幅值为|s(t)|，选取曲率为a(t)的曲线进行定量回归分析，构建4P× 4P矩阵进行网络风险数据的结构重组：

式中，E=[e1，e2，…e4P] 为衰减系数，在传输链路(a，bm) 上构建酉矩阵，当统计特征量∑=diag[σ1，σ2，…，σ4P]满足得到网络数据安全预测的特征提取结果为：

网络数据的传输系数a=1s，相对时延为b=τ，根据风险统计分布特征提取结果进行融合聚类处理，构建网络数据安全风险预测的量化回归分析模型.

2 网络数据安全预测

2.1 网络数据的融合聚类处理

在上述建网络的数据传输信道分布模型，提取网络传输码元比特流的安全风险数据统计特征量的基础上，进行网络数据的安全风险预测处理，本文提出一种基于改进机器学习算法的网络数据安全风险预测算法.根据风险统计分布特征提取结果进行融合聚类处理［7］，构建网络数据安全风险预测的量化回归分析模型，为：

其中X~1(k)，X~2(k)分别是X1(k)，X2(k)前N/2+ 1 项组成网络入侵特征分布序列，在网络风险数据分布结构模型下，以β为边界条件，得到网络风险数据整合的拓展外延Mβ：

其中：

根据上述分析，得到网络风险数据融合聚类输出为x(t)，t= 0，1，···，n- 1，结合关联特征分析方法，构建入侵信息的整合有限集合为：

其中：i= 1，2，[Cmin，Cmax]是学习因子，由此实现对网络数据的融合聚类处理.

2.2 安全风险指向性预测

在大数据处理环境下，对整个网络安全风险预测资源库的统计分布序列开始逐帧处理，在模糊聚类中心，分析网络风险数据的统计测量误差［8］，通过权重更新方法，得到模糊跟踪项满足||C(l) -C(l-1)||＜ξ，得到网络风险数据的生成式模型为：

设(sk，ak)和(sl，al)为网络风险数据整合节点之间的模糊贴近度函数，用xn-i表示网络风险数据属性集的模糊分布自相关量特征量，入侵码元形式为：

其中，Φk为资源调度特征分布集，ζ(n)为单个矩形脉冲，pk为网络风险数据的量化特征分布集，对不同辐射源的风险入侵包络特征进行关联规则挖掘，得到特征估计式为：

在信息化条件下进行网络风险数据配置，网络风险数据配置统计面板数据定义为vm，m∈[1，n]，构建网络风险数据配置集合G（其元素为gωm，ω⊆{G，T，W，L}，m∈[1，n]），采用机器学习算法进行网络安全风险预测中的收敛性控制，机器学习的迭代过程描述为：

综上分析，采用改进的机器学习算法进行网络安全风险预测［9］，机器学习的实现过程如图2所示.

3 仿真实验分析

为了验证本文方法在实现网络数据安全风险预测中的应用性能，在Matlab 环境中进行仿真实验分析，实验中构造一个INVITE资源数据库作为网络数据发送包，网络数据传输样本集包括1 200组测试样本和100组训练集，对网络数据采样的单组样本长度为1 024，相关性特征分布见表1.

表1 网络风险数据预测的相关性特征分布Tab.1 Correlation characteristic distribution of network risk data prediction

根据上述仿真环境和参数设定，进行网络数据安全风险预测仿真实验，得到网络数据的风险特征采样样本集如图3所示.

以图3的数据为输入，构建网络数据安全风险预测的量化回归分析模型，结合关联特征挖掘方法进行网络数据的安全风险指向性预测，得到风险数据的预测输出如图4所示.

分析图4得知，采用本文方法能有效实现对网络数据的安全风险预测，对风险数据的聚类性较好，测试不同方法进行风险预测的准确性，得到对比结果如图5所示，分析得知，本文方法进行风险预测的准确性较高.

4 结语

本文提出一种基于改进机器学习算法的网络数据安全风险预测算法.采用自适应学习方法，进行数据聚类过程中的聚类中心调节，采用神经网络分类器进行网络数据的主特征提取和分类识别，根据风险统计分布特征提取结果进行融合聚类处理，构建网络数据安全风险预测的量化回归分析模型，在信息化条件下进行网络风险数据配置，采用改进的机器学习算法进行网络安全风险预测，机器学习算法的逐步改进会更加优化网络环境以面对各种未知的攻击［10］.研究得知，采用本文方法进行网络数据安全风险预测准确性较高，抗干扰性较好.