基于博弈论的网络攻防行为建模与态势演化分析

2022-01-04刘小虎张恒巍张玉臣

电子与信息学报 2021年12期

刘小虎张恒巍* 张玉臣胡浩程建

①(战略支援部队信息工程大学郑州 450001)

②(国防科技大学武汉 430000)

1 引言

网络空间的安全性是一种涌现属性[1]。微观层面网络攻防对抗行为推动了宏观层面网络攻防态势的不断演化[2]。有效刻画网络攻防行为、准确预测网络攻防态势演化趋势成为亟需研究解决的关键问题。网络攻防与博弈论在目标对立、策略依存和关系非合作等特征方面具有相似性[3]。博弈论被认为是网络空间安全学科的基础理论之一[4]。基于博弈论建模网络攻防行为，分析网络攻防态势演化趋势，日益成为当前网络安全领域的研究热点[5]。

根据攻防双方掌握的行为信息和收益信息的完备程度，可将网络攻防博弈模型划为完全信息博弈模型和不完全信息博弈模型[6]。例如文献[7]针对网络安全测评和最优主动防御问题，提出了网络攻防完全信息博弈模型以及一种攻防策略分类及量化方法；文献[8]针对军事信息网络的安全风险评估问题，基于完全信息博弈模型提出了一种网络安全风险评估方法，并从安全属性角度量化攻防收益。由于网络对抗过程中，攻防双方一般仅能掌握己方信息和部分对方信息。因此，不完全信息博弈模型更符合网络攻防特点。例如文献[9]针对网络防御决策方法中未考虑攻击方的类型、防御方的反击行为等问题，建立了网络攻防不完全信息博弈模型，结合攻击者类型、防御者反击行为和攻击成功率改进收益量化方法；文献[10]针对网络防御决策方法仅考虑攻击方类型未考虑防御方类型、策略选取可操作性差等问题，提出了一种攻防双方均具有多种类型的不完全信息博弈模型，并用数学方法证明了攻防双方采用混合策略的可信性。

现有研究在建立网络攻防博弈模型后，大多通过案例推演或者数值仿真方式加以验证，存在着难以刻画展示网络攻防态势、无法有效分析网络攻防行为与态势演化趋势之间的联系等问题，在分析和解释网络安全涌现现象方面存在一定不足。博弈论与仿真是研究社会复杂系统的两个互补方法[11]，能够为研究网络安全问题提供可行途径。将网络攻防节点视为智能体，在建立网络攻防行为博弈模型后，利用NetLogo多智能体仿真工具动态模拟网络攻防态势随时间演化趋势，可从微观网络攻防行为层面分析宏观攻防态势演化现象，增强对网络攻防态势演化规律的认识，提高网络防御的针对性和有效性[12]。同时，网络攻防态势演化分析涉及网络节点数量众多，采用智能体仿真方法可解决攻防实验环境部署难度大、可扩展性差、灵活性不足等问题，并提供较好的动态展示效果。

针对网络攻防行为与态势演化关系的问题，本文将网络攻防节点的决策行为视为逻辑上的同时决策，采用不完全信息静态博弈建模网络攻防行为，借鉴传染病动力学理论定义网络攻防态势，以网络勒索病毒攻防博弈为例开展仿真实验，分析不同攻防场景下网络攻防态势演化趋势。主要贡献在于：(1)基于不完全信息静态博弈理论构建了网络攻防博弈模型，攻防双方均具有多种类型，采用两次海萨尼转换求解贝叶斯纳什均衡，更加符合网络攻防信息不完备的实际；(2) 借鉴传染病动力学理论，以不同安全状态网络节点密度定义网络攻防态势，分析网络节点的4条安全状态转移路径，便于从网络攻防行为层面解释态势演化现象；(3)采用Net-Logo多智能体仿真工具动态模拟网络攻防态势随时间演化趋势，具有计算量小、直观性强、扩展性好等优点。

2 网络攻防博弈模型构建与均衡求解

2.1 博弈模型构建

为有效构建网络攻防博弈模型，一般假设攻击方和防御方都受能力、资源和偏好等条件约束，攻击策略和防御策略均是有限的，攻防双方目标均是通过适当的策略组合实现自身收益最大化[13]。

定义1 网络攻防博弈模型(Network Attack-Defense Game Model, NADGM)是一个非合作不完全信息静态博弈模型，包括7元组NADGM=(N,S,Θ,P,T,x(t),U)，其中

(1)N=(ND,NA)是局中人空间。ND表示防御方局中人；NA表示攻击方局中人。局中人具有自主决策能力。

(2)S=(SD,SA)是局中人的策略空间。SD表示防御方策略集，SD={Dg|g=1,2,...,m}；SA表示攻击方策略集，SA={Ah|h=1,2,...,n}。其中，1≤(m,n)<+∞,(m,n)∈Z。

(3)Θ=(ΘD,ΘA)是局中人的类型空间。ΘD表示防御方类型，ΘA表示攻击方类型。由于不完全信息性，攻防双方类型都不少于1种。

(4)P=(PD,PA)是局中人的概率空间，描述攻防双方类型的不确定性。PD表示防御方的概率空间，PA表示攻击方的概率空间。

(5)T代表时间。网络攻防博弈及态势演化是一个动态连续的对抗过程，需要从时间维度进行建模和分析。

(6)x(t)表示t时刻的网络攻防态势，0≤t ≤T。本文采用网络中具有不同安全状态的网络节点的密度刻画网络攻防态势，详细分析见第3节定义2。

(7)U=(UD,UA)是收益函数。UD表示防御方收益函数，UA表示攻击方收益函数。收益是博弈双方策略选取的结果、策略调整的依据。

2.2 博弈均衡求解

收益量化和计算是博弈均衡求解的基础与前提[14]。基于博弈论的网络攻防研究中，攻防收益量化和计算较多借鉴姜伟等人[15]提出的方法。例如，文献[12]定义了系统损失代价(System Damage Cost, SDC)、攻击代价 (Attack Cost, AC)、攻击回报(Attack Reward, AR)、防御代价(Defense Cost, DC)、防御回报(Defense Reward, DR)等概念。其中，系统损失代价SDC受攻防策略组合影响，记为SDC(Dg,Ah)，代表当防御策略为Dg、攻击策略为Ah时目标系统遭受损失的值；防御回报DR为采用防御措施后系统免于遭受的损失，可用SDC正值表示；攻击回报AR为攻击方对目标系统造成的损失，用系统损失代价SDC正值表示。但由于攻防双方实施策略的成本不相同，网络攻防博弈模型NADGM属于非零和博弈。不同攻防策略组合(Dg,Ah)下，收益函数UD(Dg,Ah)和UA(Dg,Ah)的计算方法由式(1)给出。

网络攻防对抗中攻防策略集都是有限的而非无限的，网络攻防博弈NADGM是有限非合作博弈。纳什根据不动点定理证明了有限非合作博弈均衡的存在性[16]。网络攻防博弈模型NADGM均衡为贝叶斯纳什均衡，其存在性定理及证明见文献[17]。

联立式(2)、式(3)和式(4)组成方程组，利用线性规划方法可求解网络攻防博弈模型NADGM的贝叶斯纳什均衡。为避免在实际计算过程中面临的求解过程复杂、计算量大等问题，可利用博弈分析和计算工具Gambit[18]进行求解。对于攻击方和防御方，贝叶斯纳什均衡解为双方最优策略，双方均不会因单方面改变策略而增加收益。

3 网络攻防态势定义与演化分析

涌现性是网络安全的天然属性。文献[19]指出传染病模型和基于智能体仿真是研究网络安全涌现性的有效途径。传染病模型SIR将人群状态分为易感者、感染者和康复者，不同状态人群在一定条件下可以相互转化，与网络攻防对抗所引起的节点安全状态转移具有一定相似性，已在网络安全研究领域得到了一定应用。例如，文献[20]将传染病模型应用于无线传感网络节点通信协议设计中，提出了Discard算法；文献[21]在“易感-感染-移除-易感”SIRS病毒传播模型的基础上建立了零日病毒传播模型，运用劳斯稳定性判据分析了系统平衡点的局部稳定性，并开展了仿真实验。文献[22]在传染病模型的基础上提出了网络安全状态演化模型，通过求解模型的鞍点策略给出最优防御策略选取方法。

网络攻防对抗中，攻击方试图将攻击策略部署到更多的网络节点，扩大攻击的影响范围；防御方试图将防御策略部署至更多的网络节点。从涌现性视角理解，微观层面网络攻防对抗行为会导致网络节点状态发生改变，进而在宏观层面引起网络攻防态势演化现象。文献[23]指出网络攻防行为主要引起两方面变化：一是单个网络节点安全状态不断迁移变化；二是不同安全状态网络节点数量持续动态变化。因此，借鉴传染病动力学理论[24]，将网络节点的安全状态划分为3类，分别是攻击感染节点、正常用户节点和防御部署节点。

攻击感染节点(Infectious Node, IN)：攻击方在网络节点部署有攻击策略，拥有该节点的控制权，对应于网络攻防博弈模型中NA; IN(t)表示t时刻攻击感染节点IN的数量。

防御部署节点(Recovered Node, RN)：防御方在网络节点部署有防御策略，拥有该节点的控制权，对应于网络攻防博弈模型中ND; RN(t)表示t时刻防御部署节点RN的数量。

正常用户节点(Susceptible Node, SN)：网络节点未部署攻击策略和防御策略，正常用户拥有该节点的控制权。攻击方和防御方在付出一定策略代价后，相应地可使其转化为攻击感染节点ID和防御部署节点RN。SN(t)表示t时刻正常用户节点SN的数量。

网络攻防博弈研究中，一般假设所研究的网络攻防系统是确定的，则可认为系统中网络节点的总数量保持不变，记为QN。网络节点的攻防博弈结果引发节点安全状态转移，导致不同类型节点数量动态变化。但无论网络节点安全状态如何转移，t时刻3类安全状态节点数量之和保持不变，即

刘小虎等人[12]给出了网络攻防策略对抗结果判定方法，将攻击方和防御方分别视为智能体，采用不同类型的智能体数量表示网络攻防态势，改进NetLogo 模型库中“狼-羊-草”模型开展了仿真实验。但是，仅依靠某一类型智能体数量无法直观反映网络攻防态势。网络节点密度指某类型节点占网络节点总数量的比例。网络节点密度越高，则该类型智能体在攻防中越占优。特定时刻，不同类型网络节点密度反映了攻击感染节点、正常用户节点和防御部署节点在网络系统的整体分布情况，刻画了网络攻防态势。

将网络节点视为智能体，通过微观层面攻防智能体间博弈行为，分析宏观层面网络攻防态势演化现象。与经典传染病SIR模型不同的是，由于攻击方和防御方的博弈行为，存在4条网络节点智能体安全状态转移路径，如图2所示：

图1 不完全信息静态贝叶斯博弈树

图2 网络节点智能体安全状态转移路径

(1) SN→IN：攻击方付出一定策略成本后，可将攻击策略部署至SN节点，使其变为IN节点；若攻击方无法负担部署攻击策略的代价，则不能实现安全状态转移。

(2) SN→RN：防御方付出一定策略成本后，可将防御策略部署到SN节点，使其变为RN节点；若防御方无法负担部署防御策略的代价，则不能实现安全状态转移。

(3) RN→IN：攻击方策略强度比防御方策略强度高，网络节点无法有效抵御攻击，节点变为IN节点。

(4) IN→RN：防御方策略强度比攻击方策略强度高，网络节点成功清除攻击策略，节点变为RN节点。

4 网络勒索病毒攻防案例仿真分析

4.1 网络勒索病毒攻防行为分析

勒索病毒是常见的网络攻击形式之一，近两年呈持续高发态势，影响较大的有WannCry, Bad-Rabbit, GandCrab和Sodinokibi等[25]。勒索病毒主要以利用系统漏洞或社会工程学方式发送邮件、布设木马等形式进行传播，一旦感染用户主机，则加密其存储的数据，理论上不可破解，用户需支付赎金才能获得解密密钥。勒索病毒类型多、变种快，若不及时升级防御措施则无法有效免疫。防御勒索病毒需要从技术和管理两方面做起，防御策略主要包括安装反病毒软件并更新病毒库、及时安装系统漏洞补丁、关闭非必需的共享功能以及端口、使用高强度密码并动态更换、定期备份关键数据等。我们以勒索病毒的攻击与防御为例，建立网络攻防博弈模型并进行态势演化分析。

勒索病毒攻防博弈模型中，攻防局中人分别为勒索病毒攻击方NA和网络安全防御方ND；将防御方划分为两种类型ΘD=(ΘDH,ΘDL)，分别表示增强型防御和普通型防御。防御方为增强型防御类型时，网络安全意识较强，防御能力相对较高；防御方为普通型防御类型时，网络安全意识薄弱，防御能力相对较低。例如，早在2017年3月，微软公司就已经公布了针对MS17-010漏洞的补丁包，5月12日WannCry全球爆发，一部分用户升级了系统，可认为属于增强型防御类型，另一部分用户没有升级系统，可认为属于普通型防御类型。防御方属于以上两种类型的概率分别是PDH和PDL。将攻击方划分为两种类型ΘA=(ΘAH,ΘAL)，分别表示增强型攻击和普通型攻击。勒索病毒种类较多、版本不同，攻击能力有所区别。例如，GandCrab自2018年年初出现，从1.0版本逐步升级到5.2版本，低版本的病毒逐渐被防御方破解和查杀。将攻击能力强、熟练运用组合式漏洞扫描和深度社会工程学工具的用户视为增强型攻击类型，攻击能力弱、勉强运用简单漏洞扫描和一般社会工程学工具的用户视为普通型攻击类型。攻击方属于以上两种类型的概率分别是PAH和PAL。参考美国麻省理工学院(MIT)林肯实验室攻防行为数据库[26]的分级方法，将攻击策略划分为SA={A1,A2,A3,A4}，将防御策略划分为SD={D1,D2,D3,D4}，勒索病毒攻防类型及策略划分如表1所示。

表1 勒索病毒攻防类型及策略划分

根据3.2节分析，采用两次海萨尼转换，得出勒索病毒攻防贝叶斯博弈树如图3所示。

图3 勒索病毒贝叶斯博弈树

攻击回报AR主要包括被用户支付赎金、攻击方影响力的提升等，感染主机数量越多，攻击回报越大；攻击成本AC主要包括制作和释放勒索病毒的代价，以及若在传播病毒过程中被发现，存在被反制和惩罚的代价等。防御回报DR主要包括因实施勒索病毒防御策略而免于遭受的损失，以及被感染后成功修复所带来的回报等；防御成本DC主要包括实施勒索病毒防御策略代价、安全管理代价，以及若被感染进行数据修复的代价等。依据勒索病毒攻防实际，基于历史数据统计和回归分析，并结合安全专家经验，分别给出系统损失代价SDC、攻击代价AC、防御代价DC，然后利用式(1)计算得出不同策略组合下防御收益UD(Dg,Ah)、攻击收益UA(Dg,Ah)，如表2所示。

表2 不同策略组合下攻防收益

采用Gambit15.0制作勒索病毒攻防博弈模型的工程实例，如图4所示。通过运行工程实例求解得出勒索病毒攻防博弈模型的贝叶斯纳什均衡解。

图4 勒索病毒攻防博弈模型Gambit工程实例

4.2 网络勒索病毒攻防态势仿真

网络信息系统由大量节点组成，单个网络攻防节点博弈行为无法展示网络攻防态势，仿真是解决该问题行之有效的途径。NetLogo是一款开源的多智能体仿真工具，能够同时模拟大量节点的智能交互行为[27]。仿真实验中设置网络信息系统节点总数为1000个，平均节点度为6，IN节点个数为10，生成初始网络攻防态势如图5所示，其中红色节点表示攻击感染节点IN，蓝色节点表示增强型防御节点RN，灰色节点表示普通型防御节点SN。

图5 初始网络攻防态势

通过设置不同的仿真参数，动态模拟不同场景下网络攻防态势演化趋势，如图6-图11所示。图中横坐标均为仿真时间，纵坐标均为不同类型节点数占网络节点总数的比例。从网络信息系统的机密性、完整性和可用性等方面综合考虑，设定当攻击感染节点IN比例峰值大于5%时，则可认为勒索病毒大规模爆发，当攻击感染节点IN比例峰值大于50%时，则认为由于勒索病毒攻击造成网络信息系统瘫痪。

图6 RN=100时攻防态势演化

场景1(图6)：初始RN节点100个，模拟防御方属于增强型防御类型概率为0.1的情况。经Gambit工程实例计算，博弈均衡时攻防收益(UA,UD)=(1115.5,228.5)。通过观察可得，当t=198时，IN节点比例的峰值达到了51.2%。该场景下网络攻防态势演化趋势是，勒索病毒在较短时间内大规模爆发，并可能引起网络信息系统瘫痪。

场景2(图7)：初始RN节点200个，模拟防御方属于增强型防御类型概率为0.2的情况。经Gambit工程实例计算，博弈均衡时攻防收益(UA,UD)=(1056,277)。通过观察可得，当t=127时，IN节点比例的峰值达到了39.4%。该场景下网络攻防态势演化趋势是，勒索病毒在一定时间内大规模爆发，并可能对网络信息系统造成重大损害。

图7 RN=200时攻防态势演化

场景3(图8)：初始RN节点300个，模拟防御方属于增强型防御类型概率为0.3的情况。经Gambit工程实例计算，博弈均衡时攻防收益(UA,UD)=(996.5,325.5)。通过观察可得，当t=322时，IN节点比例的峰值达到了8.7%。该场景下网络攻防态势演化趋势是，勒索病毒在一定规模爆发，并可能对网络信息系统造成一定损害。

图8 RN=300时攻防态势演化

场景4(图9)：初始RN节点363个，模拟防御方属于增强型防御类型概率为0.363的情况。经Gambit工程实例计算，博弈均衡时攻防收益(UA,UD)=(959.0,356.1)。通过观察可得，当t=81时，IN节点比例的峰值达到了5.0%。该场景下网络攻防态势演化趋势是，勒索病毒并未大规模爆发，对网络信息系统造成较小损害。

场景5(图10)：初始RN节点400个，模拟防御方属于增强型防御类型概率为0.4的情况。经Gambit工程实例计算，博弈均衡时攻防收益(UA,UD)=(937.0,374.0)。通过观察可得，当t=221时，IN节点比例的峰值达到了3.8%。该场景下网络攻防态势演化趋势是，勒索病毒感染范围较小，并没有大规模爆发，且在一段时间内得到清除。

场景6(图11)：初始RN节点500个，模拟防御方属于增强型防御类型概率为0.5的情况。经Gambit工程实例计算，博弈均衡时攻防收益(UA,UD)=(877.5,422.5)。通过观察可得，IN节点比例的峰值没有出现。该场景下网络攻防态势演化趋势是，勒索病毒难以爆发，并且可在较短时间内(相对于场景1-场景5)得到清除。

通过对比不同场景下的仿真结果，可得出两条结论：

(1) 微观层面网络攻防博弈行为影响宏观层面态势演化趋势。网络攻防对抗中，不同的攻防行为产生不同的博弈结果。对比图6-图11可知，若网络攻防博弈均衡时防御方收益越高、攻击方收益越低，则IN节点比例的峰值越来越低，表示勒索病毒存活的时间和扩散的范围相对越小，网络攻防态势演化趋势越有利于防御方。因此，从微观层面的网络攻防行为入手，量化和计算博弈收益，通过不同的博弈均衡分析宏观层面网络攻防态势演化现象，能够提高对攻防态势演化规律的认识，有助于指导防御策略选取，增强防御效能。

(2) 增强单个节点防御能力是扭转网络攻防态势的关键。对比图6、图7、图8可知，当防御方属于增强型防御类型概率小于等于0.363时，IN节点比例出现峰值，勒索病毒能够在网络中大规模爆发，甚至在图6中比例峰值超过了50%，造成网络信息系统瘫痪；对比图9、图10、图11可知，当防御方属于增强型防御类型概率超过0.363时，IN节点比例峰值较低，甚至在图10中没有出现，表明勒索病毒不能够在网络中大规模爆发。因此，应增强对网络安全的重视程度，提高网络节点防御能力。同时，加大对网络攻击的事先检测和事后惩治力度。一方面有力震慑攻击方，另一方面增大攻击方的攻击成本和复杂度，降低预期收益，从而扭转网络攻防态势。

图9 RN=363时攻防态势演化

图10 RN=400时攻防态势演化

图11 RN=500时攻防态势演化

将研究成果与相关文献进行对比，结果如表3所示。

表3 研究成果对比

在博弈信息方面，本文基于不完全信息博弈分析网络攻防对抗行为，攻防双方均具有多种类型；在态势演化分析方面，本文借鉴传染病动力学理论，提出了一种网络攻防态势定义及演化分析方法；在网络攻防实验场景方面，本文采用NetLogo多智能体仿真工具动态模拟网络攻防态势随时间演化趋势，仿真场景中网络节点规模大。相比于相关文献，本文方法更加符合网络攻防双方所拥有信息不完备的实际，能够从微观网络攻防行为层面分析和解释宏观态势演化趋势，具有适用于大规模场景、态势展现直观等优势。

5 结论

本文从博弈视角研究网络攻防行为建模与态势演化问题。基于不完全信息静态理论构建了网络攻防博弈模型，给出攻防收益计算量化和博弈均衡求解方法；借鉴传染病动力学理论，采用不同安全状态节点密度定义网络攻防态势，分析网络节点状态转移路径；以网络勒索病毒攻防博弈为例对方法进行了应用，采用NetLogo多Agent仿真工具动态模拟不同场景下网络攻防态势随时间演化趋势。通过分析仿真结果，给出两条关于网络攻防态势演化的认识。