APP下载

基于DBN的网络安全态势评估和态势预测建模研究

2021-05-29熊中浩杨国玉

电子技术应用 2021年5期
关键词:态势权值网络安全

熊中浩 ,张 伟 ,杨国玉

(1.中国大唐集团科学技术研究院,北京 100040;2.大唐水电科学技术研究院有限公司,四川 成都 610031)

0 引言

计算机通信网络安全(网络安全)关乎国家安全和个人安全。建立一个安全、稳定、共享的网络环境是个人和国家的美好愿景。但网络建立初期到发展至今,恶意破坏网络安全的事件只增不减,且愈演愈烈,从非法入侵窃取隐私数据到入侵工控网络篡改运行参数,从经济损失到人员伤亡,危害国家安全。如2011年12月21日,CSDN网站遭到黑客攻击,600多万个明文注册邮箱被公布,造成了个人隐私数据泄露[1]。2010年,一种针对工业控制网络系统的蠕虫病毒震网病毒大规模扩散,伊朗核设施遭到破坏,造成设备运行异常[2]。最近几年,又出现NotPetya勒索软件攻击,危害电网安全。传统的网络安全防护办法(如防火墙、漏洞扫描系统等)所提供的安全防御措施不能对网络安全状态进行实施评估,各种防御手段之间存在信息无法交互协同,缺乏整体性、动态性和持续性[3]。态势感知从上世纪90年代初发展以来,一直备受网络安全专家的重视和青睐[4]。态势感知具有全方位、全时段监测网络安全风险的能力,以网络安全大数据为基础,从全局视角监测安全威胁,既可以对当前网络安全进行评估,又可以预测将来时间的网络安全指数,为安全威胁处理决策和行动提供依据,真正地做到防患于未然。发展至今,网络安全态势评估和态势预测是态势感知的重要研究部分,主流的研究方法有:数学理论、知识推理和模式识别,其中基于模式识别的态势评估和态势预测方法是近十年研究的热点[5]。文献[6]、[7]利用粒子群优化算法和灰色关联分析法的优点,相应地提出基于粒子群优化指标的SVM(Support Vector Machine)态势评估模型和基于灰色关联分析的SVM态势评估模型;文献[8]、[9]提出基于径向基函数和基于灰色理论的BP(Back Propagation)神经网络的网络安全态势评估模型,解决了态势要素与评估结果中的不确定性和模糊性问题,解释了态势要素间非线性映射的理论原因;文献[10]构建多维度的评价指标体系,结合卷积神经网络算法并对比验证其有效性。由于BP神经网络具有极强的非线性映射和自组织、自学习以及强泛化等特性,被众多学者青睐并提出多种改进算法的态势感知和态势预测模型[11-13]。近十年,深度学习算法研究迅猛进步,应用在网络安全态势评估和态势预测的研究也逐步显现,文献[14]提出深度自编码网络作为基分类器,改善态势要素提取机制;文献[15]、[16]较早地提出基于深度学习算法的网络安全态势评估和态势预测模型。

通过广泛的文献搜索,深度学习算法在网络安全态势评估和态势预测模型建立方面的研究不够深入,如模型架构简单、指标选取不全面和数据集陈旧、单一等问题。本文分析了深度信念网(Deep Belief Network,DBN)的特点以及在网络安全态势评估和态势预测方面应用的可行性。根据DBN在预测模型中具有非监督学习的特点,构建广义网络安全态势评估指标体系。创新性地提出DBN在训练集的动态过程和输出结果是网络安全态势评估模型的相关表达,在校验集的动态过程和输出结果是网络安全态势预测的相关表达,为后续深度学习算法支持、论证网络安全态势评估和态势预测的理论化提供思路。

1 基于DBN的态势评估和态势预测建模

1.1 DBN建模可行性分析

DBN属于深度学习算法,是机器学习和智能算法的一个重要方向。2006年,人工智能领域领军人物HINTON G E在《Science》期刊提出基于玻尔兹曼机的深度信念网,完美解决了神经网络训练时出现的梯度弥散问题[17]。HINTON G E提出无监督的贪心逐层网络参数算法通过受限玻尔兹曼机的堆叠,克服或减弱了BP神经网络算法中出现的梯度弥散现象,首次成功地训练了3层隐含层的深度神经网络,在众多测试集上均取得满意结果。DBN所具有多层网络架构能提取数据中隐含的更多特征值,训练数据的无标签化更好地展现了数据输入与输出间的关系表达,使用的对比散度(CD)算法能保证网络计算的快速收敛,满足工业上输入响应快速性的要求[18]。DBN具有的这些特点和优点满足了网络完全态势评估和态势预测的全局性、精确性和实时性的要求。

1.2 DBN概述

DBN的网络架构上为深层-前馈型-神经网络(Deep-Feedforward-Neural Networks,DFNN),DBN建模算法的核心部分是逐层预训练(layer-wise training)和微调(fine tune)。图1详细展示了DBN训练中逐层预训练和微调部分。

从图1可以看出,逐层预训练策略就是对深度神经网络的训练参数进行剖分式学习,相近层级视为一个浅层神经网络,可以发挥浅层神经网络的快速学习得到特征值的优点,每组输出层级获取初始化参数后通过堆栈形成深度神经网络,既可以得到更多的隐含特征值表达,也可以提高网络计算速度,提高训练模型的泛化能力。DBN构架由多个RBM堆栈组成,各个层级间的参数初始化利用RBM的学习方式获得,即将RBM中的隐含层乘性偏置和权值连接矩阵直接赋予给相应层级的权值矩阵和偏置。每一个RBM得到自身最优参数的过程就是DBN无监督预训练的过程。在反向通道中,通过有监督的算法(如BP算法、wake-sleep算法)和少量带有标签的样本对整个网络进行微调。一个典型的DBN结构图如图2所示。

图1 DBN逐层预训练和微调

图2 DBN网络结构

DBN建模中所使用的数据集分为:有类标数据集(训练集)和无类标数据集(校验集)。记为:

其中,数据集的个数为N+T。

2 广义网络安全态势评估指标体系建立

网络安全态势评估指标体系的建立是态势评估和态势预测的重要前提,是网络安全的基本要素表现。它作为网络安全态势评估和态势预测模型的输入部分,决定模型建立的合理性、架构的完整性以及输出结果的精确性。

2.1 指标选取

网络安全态势评估指标选一般遵循4个原则:独立性、完备性、科学性和主成分性原则[19]。随着网络安全态势感知系统的发展和网络攻击、威胁的升级,更多的态势评估指标被选择,发现部分指标间存在相容关系,如各主要数据包分布、子网数据流量和子网流量变化等。所提出的部分相容性原则能更好地解释指标间的内在联系和使评估、预测结果更准确。参考GB/T 20984-2007网络信息安全评估规范[20]并结合文献[10]建立的威胁子态势、基础运行子态势和脆弱子态势包含的17个二级指标以及文献[21]建立的33个一级指标,构建脆弱性子态势、容灾性子态势、威胁性子态势和稳定性子态势4个一级指标和38个二级指标的广义网络安全态势评估指标体系,如图3所示。

图3 广义网络安全态势评估指标体系

2.2 指标量化

部分二级指标可以直接数据集或产品资料中获取,如子网数据流量、带宽使用率等。其他二级指标不能直接得到数据资料,需要进行数学量化转换。参考CVSS(Common Vulnerability Scoring System)标准,部分二级指标的量化公式如下。

(1)攻击严重程度:考虑主机总数N、攻击总数A,量化公式如下:

其中,Y表示攻击的严重程度,数值越大,受攻击越严重;Cji为第j个主机受攻击i的次数;Pji为第j个主机受第i种攻击时的攻击等级因素;Qj表示第j个主机的重要程度;Ij表示主机资料的重要性。

(2)漏洞严重程度:考虑漏洞总数A、漏洞种类数M、漏洞等级因素Wji,量化公式如下:

其中,L表示漏洞严重程度,Dji表示第i种漏洞在第j个主机上的个数。

为了消除数据样本中存在的奇异数据和消除由于量纲不同而带来的影响,对所有指标数据进行离差标准归一化处理,使所有指标数据在(0,1)范围内:

其中,min(x)为需要处理数据中最小的数据,max(x)为需要处理数据中最大的数据,x′为归一化后的数据,x为需处理的数据集。

3 模型建立及实验分析

DBN具有深层堆栈式RBM网络架构,对复杂函数的逼近表现出快速性、简洁性。因为使用RBM作为核心基础网络层,更好地体现出态势评估指标独立性、相容性、主成分性原则。DBN属于无监督深度学习网络,其训练过程是网络安全态势评估过程的体现;使用已训练的权值和偏置应用在校验过程,是态势预测过程的体现。

3.1 态势评估模型建立

本文所建立的网络安全态势评估DBN模型如图4所示。

图4 态势评估DBN模型

训练集数据样本:选用经过数据处理的CIC-IDS2017入侵检测数据集,选取90 000组数据作为训练集数据。

指标数据初选:根据所建立的广义网络安全态势评估指标体系,选取33个二级指标,考虑态势评估具有时序效应,每个指标再多选取3个采样时间的数据作为输入。一共选取输入维数33×4=132个。

数据预处理:对所选取的132位输入数据进行数学公式化和离差归一化处理,处理后均为在(0,1)区间上的有效数据。

态势评估DBN模型:采用132-500(40层)-4-1结构的DBN架构,即1个输入层包含132个神经元;41个隐含层,前40个隐含层每层包含500个神经元,最后一个隐含层包含4个神经元,体现出对二级指标具有1级指标的分类效应;1个输出层,输出态势评估值。考虑网络计算的快速性,激活函数选用ReLU函数,初始权值均设为满足正态分布N(0,0.1)的随机数,可见层和隐含层的初始权值均设为0,采用一步CD算法,即CD-1算法。加入态势评估真实值数据对采用weak-sleep算法对输出结果进行微调,对整体网络的权值和偏置进行优化。保存训练好的权值w和偏置b。

态势评估输出值:输出在(0,1)间的态势评估值。

3.2 态势预测模型建立

将态势评估模型训练好的权值w和偏置b应用在态势预测模型上,所建立的网络安全态势预测模型如图5所示。

令表示参与者1选择fi作为自身策略的概率,表示参与者2选择作为自身策略的概率。参与者1的支付则可以表示为

图5 态势预测DBN模型

校验集数据样本:选用经过数据处理的CIC-IDS2017入侵检测数据集,选取10 000组数据作为校验集数据。

指标数据初选方法和数据预处理方法与态势评估建模过程选用方法相同。

态势预测模型:使用态势评估模型训练好的权值w和偏置b作为态势预测模型所使用的权值和偏置,预测建模过程无需使用态势评估真实值进行微调。其他DBN网络设置与态势评估DBN模型参数一致。

态势预测输出值:输出在(0,1)间的态势预测值。

3.3 CIS-IDS2017数据集介绍及处理

CIC-IDS2017数据集共包含周一至周五5天的攻击和正常活动,总量为55 GB,具有完整的网络配置、完整的流量统计、标签数据集、完整的交互、完全捕获、多可用协议、攻击多样性和异构性。需要处理PCAP和CSV格式的文件。

为了保证实验的有效性,将数据集分割成5 200个时间片,在时间片中进行数据处理,进行相关态势要素提取,对所提取的二级指标数据进行数学公式量化处理成DBN模型可以使用的训练集和校验集数据。PCAP文件使用Wireshark工具进行文件回放,CSV文件使用Excel相关函数进行处理,对复杂数据进行预处理。经过预处理后的二级指标输入数据部分如表1所示。

表1 部分二级指标样本输入值

3.4 实验结果及分析

共制作5 200个样本,其中划分3 000个为训练组样本(即态势评估模型数据样本)、2 200作为校验组样本(即态势预测模型数据样本)。网络安全态势评估模型训练结果如图6所示。可以看出模型训练是成功的,总体效果是不错的,在峰值、拐点处存在极少评估失准的情况。DBN态势评估模型训练时间为65.32 s。

图6 DBN网络安全态势评估模型训练图

网络安全态势预测模型使用网络安全态势评估模型训练成功的DBN的权值和偏置。网络安全态势预测模型校验结果如图7所示。可以看出模型校验是成功的,总体效果是优良的,未出现预测失准的情况。DBN态势预测模型训练时间25.45 s。

图7 DBN网络安全态势预测模型校验图

其中,Y预测值表示态势预测的预测值,Y平均值表示态势预测的均值,Y真实值表示态势预测的真实值,R2表示R方值。根据公式所示,R方值越接近0,表示曲线拟合越精准,效果越好。该DBN模型的R方值为0.001 844 2。

4 结论

本文从网络安全态势评估和态势预测的深度信念网建模方法展开深入研究,具体如下:

(1)研究了深度信念网的数据驱动建模方法和其在网络安全态势评估和态势预测建模的可行性分析。DBN所使用的基础网络受限玻尔兹曼机以及逐层预训练和微调核心算法在理论上符合态势评估和态势预测的动力学表达,使建立的模型更稳定、精准和快速。

(2)分析了网络安全态势评估指标选取的4个原则,构建了4个一级指标和38个二级指标的广义网络安全态势评估指标体系。

(3)建立基于DBN的网络安全态势评估和态势预测模型。对CIC-IDS2017数据集进行预处理,使用5 200组数据样本,其中3 000组作为训练组,2 200组作为校验组。根据实验仿真结果,模型建立成功,其精度、速度令人满意。

本文使用DBN对网络安全态势评估和态势预测进行建模仿真,在研究过程中,发现有两点可以进一步研究:

(1)DBN模型算法的优化,如增加学习动量项、考虑模型稀疏性等。

(2)网络安全态势评估指标体系的优化,如建立三级指标体系、考虑各指标间更加复杂的联系关系等。

猜你喜欢

态势权值网络安全
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
2019年12月与11月相比汽车产销延续了增长态势
汇市延续小幅震荡态势
我国天然气供需呈现紧平衡态势
网络安全
网络安全人才培养应“实战化”
上网时如何注意网络安全?
基于权值动量的RBM加速学习算法研究
基于多维度特征权值动态更新的用户推荐模型研究