APP下载

基于PCA的BP神经网络在信息安全中的应用

2020-01-16白轶车宇

电子技术与软件工程 2019年22期
关键词:识别率数据处理信息安全

文/白轶 车宇

目前信息安全问题已经得到社会的广泛关注,目前在信息安全管理中主要依靠现有的病毒库,采用病毒查杀的方法来保证系统安全。但是在实际上,这种病毒查杀方法并不具有高效、预先防御的功能,导致很多新型病毒出现后系统的安全保护出现滞后性。而PCA 技术的出现进一步强化信息安全管理能力,可以有效避免信息安全事件发生,具有先进性,值得关注。

1 PCA技术分析

1.1 PCA技术概括

在当前的实时网络环境下,网络数据的流通数量越来越大,并表现出高度的数据维度特征,尤其是在业务的高峰时期,有效的识别数据特征并对异常数据进行隔离是保证信息安全的关键。在这种情况下,基于统计学中的PCA 技术(主成分分析方法)出现,并成为现阶段处理网络数据的常见方法,与传统技术相比,该技术能够进一步降低数据维度,并最大程度上保证了数据所具有的原始特征。在这种情况下,数据量减少且维度降低有助于提高异常数据的监测性能,这是传统技术所不具备的。

1.2 主动成分分析方法的降维原理

PCA 技术是一种可以将高纬度数据的不同数据映射成为少数几个能够代表元数据特征值的降维方法,在经过这种数据处理之后,这些少数的特征值可以反映出原有数据的特征属性,并且为了保证数据处理效果,这些处理之后的数据是没有关联性的。

在PCA 的数学表达过程中,假设待处理的网络异常源数据具有n 个维数特征值,表述为:x1、x2……xn,在经过PCA 处理之后,就可以将其转变为n 个综合变量,通过这种计算方法可以确定不同综合指标因子y 的维度数,并且从第一个变量开始一直到第n 个变量数,且方差呈现出依次递减的特征。

2 基于主成分分析法的BP神经网络信息安全管理分析

2.1 BP神经网络信息分析

BP 神经网络最初是对人类大脑的工作进行抽象模拟的技术,其中涉及到了计算机科学、生物学、数学等内容,目前已经在广泛应用在人工智能机器学中。从功能来看,BP 神经网络可以通过学习与训练过程来调整网络的连接权值,最终达到从输入到输出过程的完整收敛状态。所以在当前的数据处理中,BP 圣经网络具有满意的网络信息处理能力,针对网络信息传输过程中存在的信息变形失真或者信息丢失不完整情况进行抽象补充。最后,BP 神经网络具有一定的自主学习能力,能够识别训练样本中各种异常数据,且对于异常数据的变形形式也有一定的识别效果。

2.2 基于BP的神经网络学习步骤

在BP 神经网络中,在学习样本从输入层输入到网络中之后,神经元的激活值开始从输入层一直想输出层传递,这个过程中,各层的神经元在数据上否会得到相应;之后根据减少目标情况,可以反向从输出层到隐含层再到输入层,通过一层一层的修正权值,保证了数据处理过程。而在实际上,这种反向误差的持续修正,可以提高网络对输入模式相应的正确率。

3 仿真分析

3.1 实验数据源的确定

本次仿真实验中采用了KDD CUP99 数据集,该数据集主要包含4898431 条记录,本文在该数据集的基础上,基于10%的测试子集与训练自己进行仿真实验,实验中不仅包含了各种正常数据,也包含异常数据,并且每个异常数据中都包含不同的入侵攻击行为。

3.2 仿真准备阶段

3.2.1 选择仿真平台

本次研究中选择了MATLAB 仿真平台,该平台是一款在图像处理、系统仿真以及计算机等领域应用十分广泛的软件平台,经过长时间的发展,仿真平台可以提供大量的便捷工具,因此在科研领域得到充分运用。

3.2.2 PCA 相关函数的提取

本文所界定的PCA 相关函数的资料与表1所示。

3.2.3 攻击类型与数目的确定

在本次仿真分析过程中所使用的Kddcup文件中包含494021 条源数据,在这些数据处理中,通过SQL 数据库进行处理,筛除其中的重复数据,得到了攻击数据的详细资料,相关内容如表2所示。

同时在数据处理阶段,考虑仿真过程中由于MATLAB 环境下无法识别费数据化资料,因此数据中的234 维度都需要转变为非数值化数据,采用1 代替。

3.3 数据的归一化处理与仿真实施

3.3.1 数据归一化处理

数据归一化处理在实际上就是数据标准化处理,本文为了进一步提高数据质量水平,在保证数据集不丢失自身特征的基础上转变为一种更紧凑的形式,所以在数据处理过程中,将诡异处理后的数据集进行集中处理,使整个仿真分析所需要的资源与时间更少,效率更高,则处理过程为:

表1:PCA 的相关函数资料表

表2:攻击类型与数目

表3:识别效果对比

(1)计算带训练数据集中的源数据集,提取数据集中的所有元素的平均值,记为P0;

(2)将源数据集中的所有元素标准化,获得标准差;

(3)将源数据集归一化处理。

3.3.2 仿真处理

考虑到实验结果是未知的,并且基于PCA 的BP 神经网络安全中存在不同分量特征的数目,这些神经元数量无法确定,因此在数据处理过程中,可以在分类模拟训练的基础上通过多次连续的实验来保证PCA 的模型仿真结果实现最优化。因此在本次研究中,本文将结合训练数据集Train.txt 与测试数据集进行降维处理,这样可以获得不同主分量,之后获取完成的主分量加入到BP 神经网络中,将测试集通过的PCA 对BP 神经网络进行识别,经过多次反复的数据处理,可以得到基于PCA的BP 神经网络安全管理结果。

在数据处理过程中,基于PCA 的BP 神经网络信息安全管理直接与未改进的BP 神经网络上进行对比,通过对比两种方法对信息安全数据的识别效果,评价PCA 技术的优势。

3.4 识别结果与分析

从本次仿真实验来看,基于PCA 的BP神经网络对于不同攻击类型具有更强的识别率,相关资料如表3所示。

根据表3的相关资料可知,结果相比基于PCA 改进的BP 神经网络对于各类网络攻击具有更高的识别率,整体信息安全管理能力要显著高于传统方法。根据这一结果,共得出以下结论:

(1)与传统的检测方法相比,PCA 改进的BP 神经网络误报率显著下降,证明该方法可以在BP 神经网络信息安全管理中提高了安全事件的信息识别率;

(2)在五种攻击类型中,系统对NORMAL 攻击类型的识别率最好,对U2R 攻击类型的识别率较差。这一结果在一定程度上说明了人工神经网络在训练样本充足的情况下,系统对阈值的调节更细致,所以网络信息安全管理的效果好,且识别率更高;相反训练样本不足,在一定程度上会影响识别率。

因此可以认为基于PCA 的BP 神经网络通过处理对于异常数据具有很高的识别率,因此面对海量异常数据也保持着满意的识别率,这是传统技术所具备的,该方法通过主成分分析保证了原有数据的特征,提高了数据识别的准确率。

4 结束语

本文详细分析了基于PCA 的BP 神经网络信息安全管理问题,从本文的实验仿真结果来看,PCA 方法满足BP 神经网络信息安全管理要求,与传统方法相比,该方法对于安全信息具有更高的识别率,因此值得推广。

猜你喜欢

识别率数据处理信息安全
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
保护信息安全要滴水不漏
高校信息安全防护
高速公路机电日常维护中车牌识别率分析系统的应用
保护个人信息安全刻不容缓
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用