基于PCA的BP神经网络在信息安全中的应用

2020-01-16白轶车宇

电子技术与软件工程 2019年22期

文/白轶车宇

目前信息安全问题已经得到社会的广泛关注，目前在信息安全管理中主要依靠现有的病毒库，采用病毒查杀的方法来保证系统安全。但是在实际上，这种病毒查杀方法并不具有高效、预先防御的功能，导致很多新型病毒出现后系统的安全保护出现滞后性。而PCA 技术的出现进一步强化信息安全管理能力，可以有效避免信息安全事件发生，具有先进性，值得关注。

1 PCA技术分析

1.1 PCA技术概括

在当前的实时网络环境下，网络数据的流通数量越来越大，并表现出高度的数据维度特征，尤其是在业务的高峰时期，有效的识别数据特征并对异常数据进行隔离是保证信息安全的关键。在这种情况下，基于统计学中的PCA 技术（主成分分析方法）出现，并成为现阶段处理网络数据的常见方法，与传统技术相比，该技术能够进一步降低数据维度，并最大程度上保证了数据所具有的原始特征。在这种情况下，数据量减少且维度降低有助于提高异常数据的监测性能，这是传统技术所不具备的。

1.2 主动成分分析方法的降维原理

PCA 技术是一种可以将高纬度数据的不同数据映射成为少数几个能够代表元数据特征值的降维方法，在经过这种数据处理之后，这些少数的特征值可以反映出原有数据的特征属性，并且为了保证数据处理效果，这些处理之后的数据是没有关联性的。

在PCA 的数学表达过程中，假设待处理的网络异常源数据具有n 个维数特征值，表述为：x1、x2……xn，在经过PCA 处理之后，就可以将其转变为n 个综合变量，通过这种计算方法可以确定不同综合指标因子y 的维度数，并且从第一个变量开始一直到第n 个变量数，且方差呈现出依次递减的特征。

2 基于主成分分析法的BP神经网络信息安全管理分析

2.1 BP神经网络信息分析

BP 神经网络最初是对人类大脑的工作进行抽象模拟的技术，其中涉及到了计算机科学、生物学、数学等内容，目前已经在广泛应用在人工智能机器学中。从功能来看，BP 神经网络可以通过学习与训练过程来调整网络的连接权值，最终达到从输入到输出过程的完整收敛状态。所以在当前的数据处理中，BP 圣经网络具有满意的网络信息处理能力，针对网络信息传输过程中存在的信息变形失真或者信息丢失不完整情况进行抽象补充。最后，BP 神经网络具有一定的自主学习能力，能够识别训练样本中各种异常数据，且对于异常数据的变形形式也有一定的识别效果。

2.2 基于BP的神经网络学习步骤

在BP 神经网络中，在学习样本从输入层输入到网络中之后，神经元的激活值开始从输入层一直想输出层传递，这个过程中，各层的神经元在数据上否会得到相应；之后根据减少目标情况，可以反向从输出层到隐含层再到输入层，通过一层一层的修正权值，保证了数据处理过程。而在实际上，这种反向误差的持续修正，可以提高网络对输入模式相应的正确率。

3 仿真分析

3.1 实验数据源的确定

本次仿真实验中采用了KDD CUP99 数据集，该数据集主要包含4898431 条记录，本文在该数据集的基础上，基于10%的测试子集与训练自己进行仿真实验，实验中不仅包含了各种正常数据，也包含异常数据，并且每个异常数据中都包含不同的入侵攻击行为。

3.2 仿真准备阶段

3.2.1 选择仿真平台

本次研究中选择了MATLAB 仿真平台，该平台是一款在图像处理、系统仿真以及计算机等领域应用十分广泛的软件平台，经过长时间的发展，仿真平台可以提供大量的便捷工具，因此在科研领域得到充分运用。

3.2.2 PCA 相关函数的提取

本文所界定的PCA 相关函数的资料与表1所示。

3.2.3 攻击类型与数目的确定

在本次仿真分析过程中所使用的Kddcup文件中包含494021 条源数据，在这些数据处理中，通过SQL 数据库进行处理，筛除其中的重复数据，得到了攻击数据的详细资料，相关内容如表2所示。

同时在数据处理阶段，考虑仿真过程中由于MATLAB 环境下无法识别费数据化资料，因此数据中的234 维度都需要转变为非数值化数据，采用1 代替。

3.3 数据的归一化处理与仿真实施

3.3.1 数据归一化处理

数据归一化处理在实际上就是数据标准化处理，本文为了进一步提高数据质量水平，在保证数据集不丢失自身特征的基础上转变为一种更紧凑的形式，所以在数据处理过程中，将诡异处理后的数据集进行集中处理，使整个仿真分析所需要的资源与时间更少，效率更高，则处理过程为：

表1：PCA 的相关函数资料表

表2：攻击类型与数目

表3：识别效果对比

（1）计算带训练数据集中的源数据集，提取数据集中的所有元素的平均值，记为P0；

（2）将源数据集中的所有元素标准化，获得标准差；

（3）将源数据集归一化处理。

3.3.2 仿真处理

考虑到实验结果是未知的，并且基于PCA 的BP 神经网络安全中存在不同分量特征的数目，这些神经元数量无法确定，因此在数据处理过程中，可以在分类模拟训练的基础上通过多次连续的实验来保证PCA 的模型仿真结果实现最优化。因此在本次研究中，本文将结合训练数据集Train.txt 与测试数据集进行降维处理，这样可以获得不同主分量，之后获取完成的主分量加入到BP 神经网络中，将测试集通过的PCA 对BP 神经网络进行识别，经过多次反复的数据处理，可以得到基于PCA的BP 神经网络安全管理结果。

在数据处理过程中，基于PCA 的BP 神经网络信息安全管理直接与未改进的BP 神经网络上进行对比，通过对比两种方法对信息安全数据的识别效果，评价PCA 技术的优势。