基于三支决策的飞机空战机动决策方法

2022-03-01越凯强范盘龙

计算机应用 2022年2期

越凯强，李波*，范盘龙

（1.西北工业大学电子信息学院，西安 710129；2.中国航空工业集团有限公司西安航空计算技术研究所，西安 710068）

0 引言

战斗机空对空作战［1］是指敌我双方飞机为争夺空中优势并使得一方飞机进入另一方飞机的导弹攻击区而进行的对抗性斗争，目的是击落或驱离敌方作战飞机，从而取得战区的制空权［2］，机动决策是近距空战的关键，最优的机动动作有利于我方掌握空战的主动权，这对消灭敌方有生力量、获取战场制空权有着至关重要的作用［3-5］。

现有的机动决策方法，如：基于深度强化学习的知识进行自主机动决策［6］和基于贝叶斯理论的空战机动决策［7］等方法，无法在信息不充分和不准确情况下对战斗机进行有效的空战决策，考虑到三支决策具有适合处理不确定性和模糊性问题的特点，故而本文提出一种基于三支决策的飞机空战机动决策方法，解决了在空战信息不充分和不准确的情况下，飞机无法进行有效空战决策的问题，使之能够更好地适用空战需求。

1 多类别三支决策意图识别数学模型

使用三支决策意图识别模型对目标意图进行识别，其识别过程与基于序贯三支决策目标意图识别方法［8］相似，一个完整的序贯三支决策［9-12］定义如式（1）：

其中：ISi=(Ui，Ci，Di)表示第i个阶段的决策信息表；Uu表示第i个阶段的论域；Ci表示第i个阶段获得的目标特征信息，用以表示条件集合；Di=表示第i个阶段目标的备选意图集合。在决策类形成的二分类，则的正域、负域和边界域的判别为：

三支决策阈值由式（3）给出：

在现实空战中，战场态势环境变化快速，目标作战意图可能会随着战场态势的变化而作出相应的调整，对已经明确识别出作战意图的目标，在原来信息的基础上，每隔一定的时间，对目标意图重新进行识别。对未明确识别出作战意图的目标，则仍依照原有的方法继续对目标进行意图识别。

为解决多类别序贯三支决策冲突甚至无法识别意图的问题，本文采用一种基于代价敏感多类别三支决策的目标意图识别模型对目标意图进行识别。与传统三支决策的误分类代价损失值的设置相同，正确分类的误分类代价应该为0，即λii=0。设pi为目标作战意图为意图i的先验概率，其值由目标的特征信息和意图识别知识库得出，则计算将样本分类到n个不同意图类别中的风险损失，有：

其中：Λi三支决策代价矩阵的第i列。

与多类别序贯三支决策相比，无论目标的特征信息是否完整充分，基于代价敏感多类别三支决策［13］的目标意图识别模型在每一个识别阶段都能计算出误分类代价损失值最小的那一种意图分类，从而得到唯一的识别结果，避免了意图识别结果冲突。

2 基于三支决策的飞机空战决策

通过建立的三支决策意图识别模型，对空战多目标进行意图识别［14-15］，进行威胁评估［16］。以目标威胁为基础，结合我机作战优势，将我方编队中的飞机进行合理的分配［17］。同时，依据目标威胁程度，使用三支决策方法构建基于权值动态调整策略的机动决策模型，开展目标分配后的一对一空战机动决策研究。

2.1 战斗机动力学模型

飞机的运动可以看作是质点运动，使用三自由度质点模型来建立战斗机飞行动力学模型，可表示为：

其中：x、y、z分别表示飞机位置的三个坐标值；φ表示航向角；θ表示飞仰角；γ表示滚转角；V表示飞行速度；nx表示切向过载；nz表示法向过载。S=(x，y，z，V，φ，θ)可以表示状态向量，u=(nx，nz，γ)表示控制向量，通过飞机的控制值（即控制向量）可以计算出飞机下一时刻的状态值（即状态向量），递推公式如式（6）所示：

2.2 构建机动决策评价函数

空战机动是一个复杂的动态过程，存在大量的不确定性，为了使机动决策的结果更加符合可靠性和可使用性的要求，本文构建角度、高度、距离、速度和机动决策评价函数。

1）角度因子评价函数。

角度因子一直是空战中的关键因素，我方战机尽量从对手尾后追击目标，使目标进入我方导弹攻击区，发射导弹将其击落，并避免进入对方的进攻区域。机载导弹离轴发射能力对于增强飞机的攻击能力有着非常重要的作用，当敌机在我方飞机离轴发射角度范围以内，则可认为此时角度因子评价函数为理想值1。

其中：δmmax是导弹最大离轴发射角；ka是角度增强因子，用以增强角度因子评价函数的可靠性。

2）高度因子评价函数。

高度优势不仅可以增加飞机自身的能量优势，还可以增加导弹的可操作性能量，但是如果敌我飞机高度差过大，会严重影响到我方飞机的空战性能，并且空空导弹在飞行过程中也需要在铅垂面内做大幅度机动，作战飞机的高度优势也会相应减小。所以，高度优势应该存在合理的高度差上下边界，敌我高度差Δh在这个边界内，我方才具有较好的高度优势。

其中：Δh=hr-hb，hr表示我方飞机的飞行高度，hb表示敌方飞机的飞行高度；ΔHup和ΔHdown是保持最佳高度优势的高度差的上下边界；kh是高度增强因子，用以增强高度因子评价函数的可靠性。

3）距离因子评价函数。

为了提高攻击概率，需要将不可逃逸区的概念引入到构建距离因子评价函数中。如果目标在飞机的不可逃逸区内，则距离因子函数达到最佳效果值1，如果目标不在飞机的不可逃逸区内，则要给距离因子施加适当的奖励值或者是惩罚值，以促使目标尽早进入到我方飞机导弹攻击的不可逃逸区内。

其中：kd是距离增强因子，用以增强距离因子评价函数的可靠性；LM_far和LM_near分别表示机载导弹不可逃逸区的最大和最小边界距离。

4）速度因子评价函数。

我方飞机飞行速度本身相较于目标应保持相对优势，以获得较高的速度能量，来应对不断变化的敌我态势和战场环境。当目标进入到我方导弹的不可逃逸区内，则此时我方飞机应维持与目标同样的飞行速度，当目标未进入到我方导弹的攻击区时，此时我方飞机应加大飞行速度以缩短敌我距离。

其中：Vmax和Vmin分别表示我方飞机飞行速度的最大值和最小值；Kv是速度增强因子，用以增强速度因子评价函数的可靠。

5）机动决策评价函数。

机动决策评价函数就是将角度因子、高度因子、距离因子和速度因子这四个因素综合考虑，按照一定的权重规则将四个函数相加。根据该评价函数飞机就可以选择最优的控制变量以控制飞机作出相应的机动动作，最终形成可行的飞行轨迹。

其中：ηa表示角度函数对应的权重；ηh表示高度函数对应的权重；ηd表示距离函数对应的权重；ηv表示速度函数对应的权重。

2.3 基于三支决策的权重动态调整策略

在近距空战中，影响机动决策的四个因素的权重在不同的态势威胁情况下应有所不同［18］。通过对不同威胁下不同影响因素权重的分析，令A={aP，aB，aN}表示角度、高度、距离和速度按权重大小排序的三种不同情况，即三支决策域中的正域POS()、负域BND()和边界域NEG()，规则如式（12）所示：

实施不同的权重策略会产生不同的损失，记λPy、λBy、λNy分别表示当我方飞机面临威胁时，实施三种权重策略aP、aB、aN所对应的损失函数值；λPn、λBn、λNn分别表示当我方飞机无威胁时，实施三种权重策略aP、aB、aN所对应的损失函数值。权重与损失值的对应关系如表1 所示。

表1 三支决策损失矩阵Tab.1 Three-way decision loss matrix

根据实施三种权重调整策略不同的决策损失函数值和最小风险贝叶斯决策方法可以求出实施权重策略aP、aB、aN对应的期望代价为：

其中：P(sy|X)+P(sn|X)=1。

结合决策规则和实际情况可知，飞机在有威胁的情形下选择权重策略aP的损失函数值必然小于选择aB和aN的损失函数值，而且选择aB的损失函数值小于选择aN的损失函数值，反之一样。因此，有0≤λPy≤λBy≤λNy，0≤λNn≤λBn≤λPn，所以结合期望代价公式和代价最小规则可得：

正域：若P(sy|X)≥α，则aP=POS域，即是ηa≥ηv≥ηh≥ηd；

负域：若P(sy|X) >β且P(sy|X) <α，则aB=BND域，即是ηh≥ηa≥ηd≥ηv；

边界域：若P(sy|X)≤β，则aN=NEG域，即是ηd≥ηa≥ηv≥ηh。

空战中，机动决策的目的是使得空战态势向着我方有利的方向发展，就是在每一决策时刻，找出使机动决策评价函数值最大的控制变量。依据上述公式可知，由飞机当前时刻的状态向量St及所选择的控制变量ut，可得到飞机下一时刻的状态向量St+1，进而知道t+1 时刻飞机的机动评价函数ft+1(ΦA，ΦH，ΦD，ΦV)。递推关系如式（14）：

控制变量u=[nx，nz，γ]的选择依据：

当目标威胁满足P(sy|X)≥α时，控制变量u从表2 中选择。此时，目标威胁较大，我机需要使用极限操作来改变不利状况；

当目标威胁满足P(sy|X) <α时，以表2 为基础，将最大过载和最大横滚角变为2/3 最大过载和2/3 最大横滚角，控制变量u从改进后的表2 中选择。此时，目标威胁较小，我机使用2/3 极限操作来改变空战态势即可，以此来降低飞行员的身体负担。

表2 机动动作的控制变量输入Tab.2 Control variable inputs of maneuver actions

3 仿真分析

3.1 作战想定

作战想定：我方有三架作战飞机，分别为C1、C2、C3，在空间的初始位置分别为（10，10，6）、（7，10，6）、（10，7，6），单位km；初始速度均为240 m/s。敌方有T1、T2、T3三架作战飞机，空间的初始位置分别为（100，100，7）、（95，100，7）、（100，95，7），单位km；初始速度为270 m/s。

图1 多机空战轨迹图Fig.1 Multi-aircraft air combat trajectory chart

3.2 多目标意图识别仿真

在空战开始时分别对每个目标进行意图识别，由目标的特征信息和意图识别知识库可得到作战意图的先验概率，再计算其损失值。因为我方在空战中需要依据目标意图对目标进行威胁评估，所以本节中使用三支决策模型对目标进行意图识别，这样做的好处是我方在识别的每个时间点上都可以找到风险决策最小的意图决策结果。

图2 分别是目标一、目标二和目标三的基于三支决策作战意图识别决策结果损失图和基于二支决策作战意图识别决策结果损失图。

图2 作战意图识别决策结果损失图Fig.2 Loss charts of combat intention recognition decision results

目标一在作战开始时便朝下飞行，以超低空的飞行方式接近目标，结合现有的飞机空战作战轨迹可以得出，目标一的作战意图极有可能为突防，图2（a）仿真结果也验证了这一判别。目标二以高空飞行的形式接近目标，在空战中，该飞行轨迹对应的意图是攻击和突防的可能性较高，在图2（b）中，攻击意图和突防意图的决策结果损失值一直处于较低水平。目标三的前进方向始终朝着我方飞机，其作战意图可认为是攻击。作为对比实验的二支决策意图中，目标一和目标二攻击、侦察和突防三种意图接近，无法识别出其准确意图，目标三意图为攻击或突防。与基于代价敏感多类别二支决策的目标意图识别方法相比，三支决策能够更加准确地识别目标意图。因此，在此次实验案例中，三个目标的意图分别被识别为：突防、攻击或突防、攻击。

3.3 多目标分配仿真

随着敌我距离的不断逼近，我方需要对敌方目标进行目标分配，以充分调动我方战场资源，提高战场生存率。由仿真可知，在作战第100 秒左右，敌我双方距离接近50 km，此时进行目标分配较为合理。目标分配最佳方案为：C1分配T3、C2分配T2、C3分配T1

3.4 空战机动决策

本文直接给出表1 对应的动态权重三支决策的损失值(λPy，λPn)=(0.1，0.8)、(λBy，λBn)=(0.3，0.5)、(λNy，λNn)=(0.9，0.2)，根据三支决策理论，当目标威胁概率P(sy|X)≥0.6，则选择权重策略为aP：ηa≥ηv≥ηh≥ηd，具体设置为ηa=0.4，ηv=0.25，ηh=0.25，ηd=0.1。当目标威胁概率 3

图3 单机空战机动轨迹图Fig.3 Single aircraft air combat maneuver trajectory chart

由图3 可以看出，对于目标一的突防意图，我机采取三支决策的机动决策后，敌方飞机改变飞行方向，瓦解敌方突防意图。对于目标二，我机始终在敌机下方，干扰其侦察和突防。对于目标三的攻击意图，我机近距离尾追敌机，具有更高的生存性和作战优势。综上所述，在充满不确定性和复杂性的空战环境中，基于三支决策的空战机动决策能很好地适应作战环境，对识别出意图的敌方战机，我方战机由三支决策的空战机动决策迅速作出反应，与敌机展开空战，并在战斗中保持作战优势。