基于多阶段网络欺骗博弈的主动防御研究

2020-09-08胡永进马骏郭渊博张晗

通信学报 2020年8期

胡永进，马骏，郭渊博，张晗,2

（1.信息工程大学密码工程学院，河南郑州 450001；2.郑州大学软件学院，河南郑州 450001）

1 引言

随着网络信息技术的飞速发展，人类已经步入“互联网+”时代，互联网的应用给人类社会带来了极大的便利，网络安全问题也逐渐成为影响信息社会发展的关键因素，网络安全问题已经成为网络信息领域亟需解决的核心问题[1]。针对传统网络攻防过程中防御者往往处于被动状态[2]，学者们采用蜜罐[3]等网络欺骗技术使防御者变被动为主动。通过构建虚假或其他类型的蜜罐网络引诱攻击者进行错误攻击，从而达到保护目标网络的目的，实现网络安全主动防御。

网络欺骗[4]是指将具有欺骗性的防御策略应用于网络安全防御过程中，这是根据蜜罐的思想演进而产生的一种网络防御机制，其核心思想是防御者通过释放防御欺骗信号来干扰攻击者进行攻击策略选取[5]。在具有对抗性策略的对局中，获胜并不意味着必须成为一般意义上的强者，采取迷惑对手的行动往往也能够取得较好的效果[6]。在网络攻防过程中，防御者利用网络欺骗技术一方面可以打破网络系统的确定性、静态性与同构性，影响攻击者对目标系统信息的判断；另一方面可将攻击者引入一个“虚假”的网络环境中，使攻击者对自身攻击效果处于一种未知状态，且防御者能够对攻击者的攻击行为进行数据分析[7]。

Springer出版社于2016年出版了介绍网络欺骗研究的著作Cyber Deception[8]，该书汇集了关于网络欺骗的研究工作。此外，Pang 等[9]从攻击者的角度出发，对网络欺骗进行分析研究，但缺少对防御角度的网络欺骗研究。张恒巍等[10]将信号博弈理论应用于网络攻防分析，用于网络防御策略选取，但未考虑网络攻防过程中信息的不对称及信号传递的作用，且仅是单阶段网络欺骗研究，即在模型中攻防双方的策略选择和对抗过程限制仅为一个回合，这与网络攻防的动态演化过程不符。当前，网络欺骗研究总体来说还不够系统化。

基于此，本文充分利用信号博弈中的信号机制，通过构建多阶段网络欺骗博弈模型，从防御者角度对网络攻防过程中存在的信号欺骗机制进行深入研究，充分考虑网络欺骗信号的衰减作用，实现多阶段网络攻防对抗的动态分析推演。利用虚假信息干扰攻击者的认知来影响攻击者对攻击策略的选取，在攻击者实施网络攻击时，使防御者的损失达到最小甚至免受攻击。

2 网络欺骗博弈模型的构建

2.1 网络欺骗博弈过程分析

在传统网络攻防过程中，攻击者主要利用网络攻击或探测等手段对目标网络进行信息获取[11]，从而实现对目标系统脆弱性的分析及渗透，最终找到最合适的网络攻击策略，使网络攻击效益最优。由于网络攻击过程存在天然不对称性，攻击者能够主动获取目标网络的信息并随时实施网络攻击，而防御者往往处于被动防御状态[12]。为改变被动防御的局面，防御者可充分利用网络欺骗技术，有针对性地向网络攻击者主动释放真实与虚假2 种不同的防御信号[13]，使网络攻击者无法判断信息的真伪，从而影响攻击者对攻击策略的选取，使网络防御变被动为主动。

在博弈初始阶段，防御者通过释放虚假防御信号，使攻击者无法获得目标系统的真实状态，从而达到欺骗、限制攻击者的目的[14]；攻击者结合前期对目标系统的探测结果，综合形成对防御者类型的先验判断P1。然后根据防御者释放的防御信号，采用贝叶斯法则进行计算得出防御者类型的后验概率，选取最优网络攻击策略，从而完成博弈初始过程。在博弈初始阶段结束后，防御者再次释放适合本阶段的欺骗信号，并选取相应的最优防御策略。攻击者基于博弈初始阶段的学习经验，使防御欺骗信号效能存在一定的衰减，通过衰减因子δi（0＜δi＜ 1）表示。攻击者将后验概率作为下一阶段的先验概率，即令，并结合该阶段接收到的防御信号，得出该阶段防御者类型的后验概率，选取最优攻击策略进行网络攻击，并随时间重复此过程。具体过程如图1 所示。

图1 多阶段网络欺骗博弈过程

2.2 单阶段网络欺骗博弈模型的构建

基于2.1 节网络欺骗博弈过程分析可知，网络攻防过程由多个独立且相似的单阶段博弈构成，本文首先对单阶段网络欺骗博弈过程进行建模分析。

定义1单阶段网络欺骗博弈模型（CDGM,cyber deception game model）为六元组，即CDGM=(N,S,T,M,P,U)，具体如下。

2.3 多阶段网络欺骗博弈模型的构建

基于单阶段网络欺骗博弈分析，结合攻防实际应用，构建多阶段网络欺骗博弈模型，具体如下。

定义2多阶段网络欺骗博弈模型（MCDGM,multi-stage cyber deception game model）为八元组MCDGM=(N,K,S,T,M,δ,P,U)，具体如下。

图2 单阶段网络欺骗攻防博弈树

2.4 博弈收益量化

将博弈理论应用于网络攻防分析具有天然的优越性，但博弈收益的量化是决定最终博弈结果准确性的关键。结合文献[9,16]，本文对MCDGM 进行攻防收益量化并改进其相应的收益计算方法。

系统损失代价（SDC,system damage cost）、攻击成本（AC,attack cost）、防御成本（DC,defense cost）、攻击致命度（AL,attack lethality）等定义已经在文献[9]中给出，本文不再赘述。

定义3网络欺骗成本（CDC,cyber deception cost）[16]表示防御者通过释放虚假信号欺骗攻击者所需耗费的代价，当且仅当防御者释放信号与自身防御类型不同时产生。

在网络攻防过程中，攻击者以攻击成本最低且造成系统损失代价最大为目标，防御者以防御成本、网络欺骗成本及系统损失代价最低为目标。基于文献[9,16]的收益量化方法，本文对攻防期望收益的计算方法进行改进，具体如式(2)和式(3)所示。

3 博弈均衡求解与最优网络欺骗防御

基于MCDGM，结合网络攻防与博弈均衡求解过程[17]，利用精炼贝叶斯均衡求解方法对此博弈模型进行分析求解。

3.1 精炼贝叶斯均衡求解

针对上述构建的网络欺骗博弈模型，具体求解过程如下。

3.2 多阶段网络欺骗博弈均衡求解

针对多阶段网络攻防博弈过程，分别求出每个博弈阶段的最优网络防御策略[19]，所有最优网络防御策略构成多阶段网络欺骗博弈均衡解。

1) 第一阶段网络欺骗博弈均衡求解第一阶段的最优防御策略。

2) 第二阶段网络欺骗博弈均衡求解

3) 第k阶段网络欺骗博弈均衡求解

在博弈过程中，由于0＜δ＜1，当博弈阶段数k趋于较大甚至无穷且防御者释放虚假信号次数较多时，满足δk−r−1≈ 0，其中r表示防御者释放真实防御信号的阶段数。此时，防御欺骗信号无法对攻击者进行网络欺骗，博弈阶段G(k) 变为不完全信息静态博弈，如图4 所示。不完全信息静态博弈求解方法可参考文献[20]，本文不再赘述。

图4 第k 阶段网络攻防博弈树

综上，求出所有k个博弈阶段的精炼贝叶斯均衡解，所有博弈阶段的最优网络防御策略构成整个攻防博弈过程的最优防御策略，即

3.3 算法设计与分析

基于上述多阶段网络欺骗博弈的分析与求解过程，设计最优防御策略选取算法，具体如下。

算法多阶段网络欺骗博弈的最优防御策略选取算法

结束

基于3.1 节精炼贝叶斯均衡求解分析可知，上述算法的时间复杂度为O(k(m+n)2)，主要集中于精炼贝叶斯均衡求解；空间复杂度为O(knm)，主要集中于收益值和均衡求解中间结果的存储[21]。

将本文构建的MCDGM 及策略选取方法与文献[6-7,9,12]中的博弈模型进行比较，具体结果如表1所示。博弈类型分为静态博弈类型和动态博弈类型，由于实际应用中网络攻防属于动态对抗的过程，因此，动态博弈模型更加符合网络攻防实际。文献[6-7]将博弈论应用于网络安全分析，采用静态博弈，这种方法具有算法复杂度低的特点，但与网络攻防过程中的动态属性不符。动态博弈过程是指博弈模型是否具备分析多阶段攻防过程的能力，具备这一能力的博弈模型更加符合实际需求，对防御决策的指导作用更强。文献[6-7,9]均是单阶段网络攻防分析，降低了博弈模型的应用性。博弈模型的通用性是指模型中类型集合和策略集合是否可以扩展至n。若可以，说明模型的通用性较好；若不可以，则说明仅适用于特殊情况，推广应用性较差。文献[6-7]中博弈者和策略集合均采用2；文献[9,12]将博弈策略扩展为n，但未对博弈者进行扩展研究，使模型通用性不够。均衡求解是指博弈模型是否给出了精炼博弈均衡解的计算方法，由于动态博弈的求解相比静态博弈更加困难，尤其是动态多阶段博弈的求解过程更复杂，如果没有详细的求解方法会削弱实用性。本文从防御者角度出发，依据防御者主动释放的信息或其行为透露的各种信息来构建MCDGM，从防御者角度重点突出利用防御欺骗信号提升防御效能的研究，通过释放各类虚假信息，能够有效抵御攻击者实施网络攻击，从而达到网络安全主动防御的目的。

4 仿真实验与分析

4.1 实验环境描述

基于本文提出的MCDGM 及策略选取方法，通过构建如图5 所示的信息系统，对本文模型和方法进行实验验证。该系统主要由网络防御设备、网络服务器、文件服务器、数据库服务器、客户端服务器等组成，主要安装Windows、Linux 等操作系统。安全防御规则为限制系统外主机（包括攻击者）的访问请求，规定其只能访问网络服务器；应用服务器和网络服务器允许访问数据库服务器。但是，借助于多步攻击过程，攻击者能够取得访问应用服务器和数据库服务器的权限。

图5 信息系统结构

4.2 博弈收益计算

基于文献[12]中分析路由文件、漏洞数据库及防御策略的方法，结合文献[9]给出的原子攻击信息，利用Nessus 扫描实验信息系统，参考麻省理工学院林肯实验室攻防分类方法[22]及国家信息安全漏洞库[23]，给出攻防原子策略描述，具体如表2 和表3 所示。

表1 几种博弈模型对比结果

表2 原子攻击策略

表3 原子防御策略

针对系统仿真实验，不同的攻防策略对系统服务质量（QoS,quality of service）[25]的影响不同，可以采用平均服务时延率（SDP,service delay percent）[26]用于量化不同防御策略下的系统服务质量下降情况，SDP 越大，表明信息系统损失越大。基于此，本文将使用频率较高的Web 浏览、FTP 下载、在线视频这3 种服务进行QoS 性能分析，利用服务平均时延率对信息系统损失代价进行衡量。上述3 种服务针对不同博弈阶段分别进行20 次实验，将平均完成时间与信息系统受攻击之前的完成时间进行对比，获得平均时延率，用以衡量不同防御策略下系统稳定性情况。具体如图6 所示。

4.3 博弈均衡求解及防御策略选取

基于上述博弈收益计算方法，对本文的多阶段网络欺骗博弈进行均衡求解，并求得最优网络欺骗防御策略。

1) 博弈第一阶段均衡求解

根据式(4)计算出最优攻击策略为

防御者最优防御信号选择为

基于此，结合贝叶斯法则对上一阶段中的先验概率进行修正，从而得出后验概率，具体计算式如式(13)和式(14)所示。

图6 攻防信号博弈树

当防御者类型为TDL时，通过释放欺骗防御信号mH，攻击者选用相应的攻击策略SA1，此时防御平均收益为−3 197，系统服务平均时延率为4.8 s。

2) 博弈第二阶段均衡求解

基于上一阶段求出后验概率(αH,βH)=(0.46,0.54)，并将其作为本阶段攻击者判别防御者类型的先验概率。针对攻击者的学习经验，令δ=0.7，通过计算得出不同信息集上构造的后验推断为(αH,βH)=(0.33,0.78)。

通过计算得出第二阶段均衡解为[(TDH,TDL)→(mH,mL) →(SA1,SA1),αH=0.24,βH=0.88]。当防御者类型为TDH时，通过释放防御信号mH，攻击者选用相应的攻击策略SA1；当防御者类型为TDL时，通过释放防御信号mL，攻击者选用相应的攻击策略SA1。

3) 博弈第k阶段均衡求解

随着博弈的进行，当k取值较大时，信号衰减因子满足δk−1≈ 0，从而导致网络欺骗信号无法对网络攻击者进行欺骗，使博弈第k阶段演变为不完全信息静态博弈，具体博弈树如图7 所示。采用Lebg-plex 算法[27]可以进行求解（具体求解过程见文献[12]，本文不再赘述），最终得出攻防博弈均衡策略为(SD2,SA2)。

图7 不完全信息静态博弈树

4.4 实验分析

由上述实验可知，在多阶段网络欺骗博弈过程中，防御欺骗信号在前期博弈阶段能够达到较好的欺骗效果，但随着博弈的进行，防御欺骗信号对攻击者的欺骗效用不断降低，使网络欺骗博弈最终演变为不完全信息静态博弈，并能得出以下结论。

1) 防御者利用网络欺骗博弈能够达到对攻击者的欺骗、威慑作用。在传统网络攻防过程中，攻击者通过前期对信息系统进行试探、检测，能够获取较多的网络防御信息，而防御者往往处于被动防御的状态，这种攻防过程为信息非对称博弈。通过实验对比发现，基于信号博弈，防御者可以利用攻击者对防御信息了解的不完全性，通过主动选择及释放针对性欺骗信号，在攻防信息获取和认知领域对网络攻击者进行欺骗与迷惑，削减攻击者的信息优势，让其无法准确地实施攻击策略，从而达到欺骗、威慑网络攻击者的目的，有效提升主动防御能力。例如，当防御者为低等级防御类型TDL时，通过释放高等级防御信号mH，能够达到欺骗攻击者的目的，使攻击者不敢轻易实施攻击，从而获得保护。

2) 网络欺骗博弈中的防御欺骗信号主要作用于博弈的前期阶段。针对多阶段网络欺骗博弈，由于攻击者会根据先验概率、防御者释放的防御信号及各阶段的博弈结果使用贝叶斯法则计算相应的后验概率，从而对自身策略进行调整，使防御欺骗信号在前期博弈阶段效果最优。防御者在第二阶段的防御收益比第一阶段的防御收益普遍要低，且服务平均时延率更长（SDP越长，表明信息系统损失越大）。基于此，防御者必须充分利用前期的网络欺骗效用，及时调整网络防御策略，基于信号机制影响攻击者后验推断的形成，从而提高防御者在攻防对抗过程中的主动性。

3) 低等级防御者可利用信号机制释放欺骗信号增强防御效果。在实际网络攻防对抗过程中，并非所有的防御者都具有较强的防御能力。利用网络欺骗博弈的特点，低等级防御者可以通过伪装成高等级防御者，使攻击者无法准确地辨析防御者的真实情况，导致攻击者出于自身利益，采取保守的试探攻击，这在一定程度上能够起到主动防御的效果，从而提高防御收益。如图6所示，当防御者为弱防御类型时，选择强防御信号所获收益(−3507 −3177,−2947)要高于选择弱防御信号所获收益(−4107,−3777,−3547)，表明低等级防御者可利用信号机制释放欺骗信号，从而带来更高收益。

4) 提高防御能力是解决信息安全问题的核心举措。有效的防御信号选择和释放机制能够提高主动防御效能，使防御者达到更好的防御效果。但由于每个博弈阶段之间都会存在一定的信号衰减，使信号欺骗并不能从根本上解决网络信息安全问题。加大网络防御投入，提高网络防御能力是规避重大安全损失的必然选择。由图6 可知，当防御者为弱防御类型时，不论其释放何种防御信号，其对应的防御收益均小于强防御者类型的收益。这说明通过加大网络安全投入以提高网络防御能力，是目前防止发生重大网络安全事故的基本措施。

5 结束语

针对网络攻击一般需要依据网络侦查获取的信息来决定下一步动作，本文将非合作信号博弈理论应用于网络攻防分析，充分利用防御“虚假”信号对攻击者进行迷惑与威慑，构建多阶段网络欺骗博弈模型，对网络攻防过程中存在的信号欺骗机制进行深入研究。研究成果能够为网络攻防对抗研究提供有效的模型方法，并为防御欺骗在网络安全领域的应用提供理论指导。但针对博弈期间存在的信号衰减问题，下一步需进一步考虑如何调整防御策略，使网络欺骗信号达到更好的欺骗效果。