APP下载

改进目标收益函数的无人机集群空地对抗模型

2021-12-31王尔申肖明明曲萍萍

南京航空航天大学学报 2021年6期
关键词:蓝方红方集群

王尔申,郭 靖,宏 晨,肖明明,刘 畅,曲萍萍

(1.沈阳航空航天大学电子信息工程学院,沈阳 110136;2.沈阳航空航天大学辽宁通用航空研究院,沈阳 110136;3.北京联合大学多智能体系统研究中心,北京 100101;4.北京联合大学北京市信息服务工程重点实验室,北京100101;5.北京联合大学机器人学院,北京 100101;6.北京联合大学智慧城市学院,北京 100101)

近年来,智能集群技术已成为无人机(Unmanned aerial vehicle,UAV)技术的发展热点,直接催生了一种新的无人机作战模式——无人机集群作战[1]。集群作战的理论基础是群体智能。就像飞机的灵感来自于飞鸟,雷达的灵感产生自蝙蝠,集群技术的灵感来源于蜂群,蚁群,狼群等群居自然生物。集群内部分工明确,每个个体遵循简单的行为和规则,不需要核心个体的统一调度,便能自发地形成一个有机整体,实现复杂而强大的系统功能[2]。无人机集群对抗中,每个作战个体可以根据作战场景中双方的态势不断学习,并自动调整自身的行为以应对各种复杂战场态势[3]。

无人机集群对抗模型的研究发展主要有空空对抗和空地对抗2个方面。在空空对抗方面,Zohdi等引入短程与长程作用力,提出基于“点-质量群”的机械力学模型模拟蜂群行为,建立一种离散multi-agent模型去模拟无人机集群对抗博弈行为[4-6];陈灿等根据多智能体强化学习(Multi agent reinforcement learning,MARL)的集中式训练分布式执行(Centralized training with decentralized execution,CTDE)范式,在Actor-Critic框架下建立无人机集群对抗博弈模型[7];罗德林等引入多Agent系统、态势评估和空战对抗等理念,为每个无人机建立独立的Agent,设计相应的决策方法,以此建立无人机集群对抗模型[8];轩书哲等针对大规模无人集群攻防对抗问题,使用强化学习将问题建模为基于马尔科夫决策过程(Markov decision process,MDP)的多智能体近端策略优化(Multi-agent proximal policy optimization,M-PPO)无人机集群对抗模型[9];符小卫等针对多无人机协同对抗博弈问题,通过强化学习和无人机动力学模型建立了无人机协同对抗追逃博弈模型[10];章豪等通过无人机运动学模型以及协同约束,建立了无人机集群协同规避的博弈模型[11];Liu等在二维视角下通过质点运动模型,建立分布式无人机协同编队博弈策略模型[12];Xing等针对无人机协同对抗任务搜索,建立分布式栅格化无人机集群运动模型,提出基于人工势场-蚁群的路径规划决策优化算法[13];Jia等针对异构无人机集群协同对抗路径规划问题,提出扩展多智能体的分布式任务的基于共识捆绑算法(Consensus based bundle algorithm,CBBA)[14];王尔申等针对无人机集群协同对抗问题,根据复杂网络理论,构建无人集群协同对抗网络,基于边攻击成本分析协同网络级联效应及鲁棒性[15-17]。

在空地对抗方面,Cruz等将集群空地对抗行为看作是高度复杂的非线性动态系统,把动态博弈过程分为多级决策,建立非线性动力学模型[18-19];赵玉亮等针无人机空地对抗的不确定性和复杂性,考虑多因素提出了一种多目标双矩阵博弈模型[20];鲁鸿轩等针无人机空地自主对抗问题,分析对抗行为,提出一种三支理论的无人机空地对抗模型[21];薄宁等针对有/无人机协同空地对抗博弈问题,将博弈对抗建模为MDP模型并通过求解MDP模型得到对抗策略[22]。

现有的群体动态博弈模型的收益参数多是在初始状态下设定的,动态博弈过程中不再变化,使得目标收益函数不能实时反映战场态势的动态变化,导致博弈决策滞后于战场态势的变化[18-19]。本文针对战场态势实时变化导致目标收益函数动态变化的问题,以无人机集群与地面防空阵地为博弈双方,应用非合作博弈理论,使用空间状态矩阵表征战场态势,给出基于战场态势的自适应权重表达式,建立了无人机集群空地对抗博弈模型。仿真验证了基于自适应权重的博弈模型的合理有效性。本文主要贡献是在于提出的自适应收益权重因子以及命中因子衰减,目的是为了提高无人机集群对抗模型的适应性。

1 无人机集群空地对抗博弈模型

设定作战双方为红方(Red)和蓝方(Blue),红方为防守方,蓝方为进攻方。蓝方是由无人战斗机UCAV(Unmanned combat air vehicle),侦察无人机RUAV(Reconnaissance UAV)组成的无人机集群。红方由电子雷达阵地(Electronic radar fronts,ERF)和地面防空导弹阵地(Ground air defense fronts,GADF)组成。

1.1 战场态势

设红蓝双方的作战单位分别有NRER、NRAD、NBC、NBR,其中RER表示红方的电子雷达,RAD表示红方的防空导弹,BC表示蓝方的战斗无人机集群,BR表示蓝方的侦察无人机集群。用k=0、1、…、K表示离散的对抗时间步,k=0表示初始状态,K为对抗的最大时间步。对抗时间步k的间隔设定为1s,即对抗在第0s初始化,第1s开始,第Ks结束。不妨将博弈的参与者统一定义为X={RER,RAD,BC,BR}(i=1,2,…,NX),Xi表示参与者X的第i类作战单位。

1.1.1 基础状态矩阵

根据空地对抗场景,给出作战单位的基础状态矩阵

式中:(k)=[(k)(k)(k)]为k时刻Xi三维坐标,(k)为Xi的数量,(k)为Xi的武器载荷量,(k)表示Xi的基础状态矩阵。

1.1.2 作战参数矩阵

根据无人机、雷达以及地空导弹等作战单位的攻击特性,建立参数矩阵

式中:为Xi的作战半径,为Xi的飞行高度,(k)为Xi的飞行速度,(k)为Xi的最大火力,表示Xi的参数矩阵。

1.1.3 决策参数矩阵

把双方的位移,火力以及目标选择设为对抗行为控制因素,表示博弈决策信息

式中θ为投影在XOY面上无人机的目标偏角。通过双方位置得到θ从而求得坐标增量。

得到基于空间状态的Xi战场态势矩阵MX i(k)

式中:TX i(k)为4维向量,ZX i(k)和UX i(k)为5维向量,MX i(k)为14维向量。

因此,整体战场态势矩阵可表示为

式中

式中:MBlue(k)为无人机群状态矩阵,MRed(k)为地面部队状态矩阵,M为NRed+NBlue维矩阵。

1.2 对抗过程

复杂而多变的无人机集群对抗环境具有状态不确定性,为了简化对抗过程而提出如下约束。

1.2.1 攻击约束

式 中:Δsx、Δsy、Δsz分 别 为x、y、z轴 的 距 离 分 量;ΔxyzXY为计算XY之间的欧氏距离。红蓝双方的有效射程限定了火力输出(k),在k时刻 敌 方Y进入我方X有效射程RX内,我方才可攻击。

1.2.2 武器载荷约束

下一时间步的火力输出不能超过当前时间步的载荷储备

式中CX(k+1)为k+1时刻X的最大火力值。

1.3 状态更新

1.3.1 位移更新

位置坐标的状态转移方程为

式中ΨX i(k)、ζX i(k)分别为Xi的坐标向量和坐标增量向量。

1.3.2 数量更新

(1)判决函数

上面两函数实现了描述的二值化,从而可以利用0~1分布作为目标及距离的判定函数。

Q(k)是Xi投入的单位数量防御因子去抵消Yj投入的单位数量攻击因子,即满足Xi单位数量防御因子等于Yj单位数量攻击因子。讨论两种特殊情况:

(3)损耗因子A(k)

式中:K(k)为命中因子,Yj表示攻击Xi时,Xi被命中的概率。

在对抗过程中,红方的RER第1类作战单位(简写RER1)拥有电子侦察能力,RER2具有电子干扰能力。电子干扰能够扰乱无人机的导航信息和通信链路,导致无法正常工作,从而降低甚至丧失作战能力,是反制无人机的重要方式[23],可以对蓝方无人机集群造成严重影响。RER2使得无人机集群的攻击,飞行以及通信等能力受到制约,将影响集中体现在命中因子中,本文提出了如下命中因子衰减方式。

1.3.3 载荷更新

1.4 收益(支付)函数

博弈对抗的目的是给予双方一定量的初始对抗资源的前提下:(1)尽可能保留己方在博弈结束时的作战资源;(2)最大化减少敌方在博弈结束时的作战资源。双方的收益(支付)函数表示如下

式 中:αi、βi(i=1,2,3,4)都 是 静 态 权 重;JB(k)和JR(k)分别为蓝方和红方在k时刻的目标收益函数;(k)为归一化的Xi作战单位数量变化量。其中,(0)是Xi作战单位数量的初始值

2 自适应权重的收益函数

考虑无人机集群的复杂对抗环境,针对收益函数,静态权重的收益函数不能有效的反映当前对抗局势[8-9]。对抗博弈的收益简单认定为作战单位数量的线性表征会使得误差增大,还应考虑作战单位的武器载荷量,作战单位的作战状态等对局势有影响的因素,复杂的战场环境应使得对抗博弈的收益考虑多方面因素的组合。

2.1 自适应权重

作战单位数量是反映收益函数的关键因素,而其权重表征了在对抗中作战单位数量变化的重要程度。作战单位数量变化的重要程度与火力值(k),命中因子K(k)和武器载荷量WiX(k)等作战指标有关。

2.1.1 火力值权重分量

式中:ηc1为火力值权重分量,Xi的σiX经验取值区间为[0,1.8]。

2.1.2 武器载荷权重分量

根据式(8),武器载荷量WiX(k)限制了下一时间步的攻击阈值CiX(k+1)。作战单位的武器载荷量代表了该作战单位在战场局势的潜在威胁程度,结合数量变化量能更合理表征潜在威胁程度。引入均衡幂因子,调节作战单位的潜在威胁程度表征重要程度的比例关系

式中WiX(0)为Xi武器载荷量的初始值。

2.1.3 命中因子权重分量

根据式(14),命中因子是单调减函数,命中因子越小则对战场态势的影响越小,使得k时刻Xi的重要程度减小,引入命中因子均衡因子,调节命中因子对权重的影响

式中K(0)为Xi命中因子的初始值。

综上所述,针对不同作战单位,根据战场态势,综合k时刻的决策信息,提出一种用来动态计算目标收益函数的自适应权重,自适应权重表达式如下

红蓝双方权重更新式如下

2.2 改进的收益函数

加入自适应权重的博弈双方目标收益函数如下

3 博弈策略

无人机集群空地对抗是一种非合作博弈,为求解纳什均衡,根据极小极大值方法,表征出双方一般和博弈目标收益和

其目的是最大化己方的收益,同时减小敌方的收益。

式中:(ΠB,ΠR)分别表示双方所有可选的策略空间,(πB,πR)为双方的策略空间中的任一策略。

其中(ΠB,ΠR)策略空间中包括了双方状态下对应所执行的多维动作,有位移增量、火力值、目标选择以及电子干扰的4维动作。

空地对抗博弈算法具体流程如下所示。

输入:初始化作战双方位置,速度等状态数据输出:J是目标收益

初始化:仿真次数E=7200,对抗回合数K=25,X=[blue,red],N=[Nblue,Nred],=[ZiX(k),TiX(k)],=[UiX(k)](i=1,2,…,N),动作探索参数ε=0.5

4 实验仿真

4.1 初始数据

设定对抗活动处于恒定高度的三维空间内,高度可以通过参数设置,即(k)=HiX。对抗示意图如图1所示,蓝方处于左下角,红方处于右上角,为了显示清晰,作战单位在示意图中适当偏移。

图1 红蓝双方对抗初始示意图Fig.1 Initial picture of the red-blue confrontation

模型的初始化参数如表1~4所示,其中表1参考了实际战争的作战参数,描述了作战单位的初始状态,表2~4参考了文献[17-18]的设定,其中表2是自适应权重的初始值;表3是作战单位的命中因子的初始值;基于攻击目标选择策略的不确定性,设定双方的选择目标概率如表4所示。其中,RER2=0表示红方不对蓝方施加电子干扰,RER2=1表示红方对蓝方施加电子干扰。例如:0.6 (0.8 )表示不加干扰的选择概率为0.6 ,施加干扰时选择概率为0.8 。

表1 作战单位基础数据Table1 Basic data of combat units

表2 收益函数的初始权重Table2 Initial weight of reward function

表3 作战单位的命中概率Table3 Hit rate of combat units

表4 作战单位的选择目标概率Table4 Rate of target selection for combat units

自适应权重的各因子在近似最佳值左右各取一个对称的合理范围进行试验,如表5、6所示,括号外为有电子干扰(Electromagnetic interference,EI)的值,括号里为无电子干扰(Non-EI,NEI)的值。如 在表5中BC1的为0.5 ~1.5 (0.4 ~1.6 )。表示在EI情况下取值范围为0.5 ~1.5 ,NEI情况下取值范围为0.4 ~1.6 。

表5 蓝方α权重的均衡因子Table5 Balance factor of blue α weight

表6 红方β权重的均衡因子Table6 Balance factor of red β weight

4.2 仿真结果

在求解纳什均衡时,采用蒙特卡洛方式进行7200次仿真,对每一步的收益函数取期望-JβR、-JαB作为纳什均衡的近似解,数据经均值化处理,误差棒为标准差,实验结果如下。

4.2.1 目标收益

如图2所示,蓝色矩形表示蓝方无人机集群,红色圆表示红方地面部队,黑色三角表示双方的收益和,实心表示有EI,空心表示NEI。纵坐标为目标收益J,横坐标为对抗时间步k,施加电子干扰EI的对抗区间为[7,15]。

图2 静态权重和自适应权重的目标收益Fig.2 Target reward of static weights and adaptive weights

图2(a)表示在NEI情况下,红方的目标收益NEI-JR减小,蓝方的目标收益NEI-JB增大,蓝方在对抗中更占优势;在EI情况下,红方的目标收益EI-JR增大,蓝方的目标收益EI-JB减小,红方在对抗中更占优势。收益和EI+与NEI+均减小。图2(b)表示在NEI情况下,NEI-JR减小,NEI-JB增大。蓝方在对抗中更占优势;在EI情况下,EI-JR增大,EI-JB减小,红方在对抗中更占优势。而收益和EI+增大NEI+减小。图2(b)子图中,收益和NEI+持续减小,表明蓝方持续占优势,收益和EI+先减小后增大,表明蓝方在初期占优势,中后期红方更占优势。

无人机集群对抗过程是一种高度复杂的非线性动态过程。对比EI和NEI条件下的目标收益函数,发现静态权重的目标收益随着对抗演化,呈现了单调下降趋势;而根据图2(b)子图更易看出自适应权重的目标收益随着对抗演化,呈现非单调性。说明静态权重的目标收益曲线对复杂对抗过程的适应性不足,自适应权重的目标收益曲线可以更加合理地表征对抗过程,使得改进的目标收益函数具有一定的动态适应性。

4.2.2 对抗过程

由图3可知蓝方BR1、BR2与红方RER1均未有损失。在NEI情况下,BC1、BC2、RER2的数量下降趋势较小,RAD1、RAD2的数量下降趋势较大;在EI情况下,BC1、BC2、RER2的数 量下降趋势较大,RAD1、RAD2的数量下降趋势较小。表明施加电子干扰可以击毁更多的BC1和BC2,同时减少RAD1和RAD2的损失。

图3 作战单位数量Fig.3 Number of combat units

4.2.3 对抗结果

对抗双方的作战单位数量直方图如图4(a)所示,NEI是未施加电子干扰的剩余数量,EI是施加电子干扰的剩余数量。双方获胜的条件是可攻击单位总数量的损失超过80%。图4(a)中,在NEI情况下,蓝方BC1+BC2的损失未超过80%,红方RAD1+RAD2的损失超过80%,因此在NEI情况下,蓝方较易获胜;而在EI情况下,蓝方BC1+BC2的损失超过80%,而红方RAD1+RAD2的损失未超过80%,因此在EI情况下,红方较易获胜。

图4 作战单位剩余数量及获胜率直方图Fig.4 Surviving number of combat units and histogram of win rate

将对抗结果分为3种情况:平局,红方胜和蓝方胜。如图4(b)所示,在NEI情况下,蓝方获胜的比率为94.61 %,红方获胜的比率为2.78 %,平局的比率为2.61 %;在EI情况下,红方获胜的比率为100%,蓝方获胜和平局的比率均为0%。

4.2.4 自适应权重差

自适应权重差值等于EI时的权重值减去NEI时的权重值。如图5所示,蓝色a表示蓝方无人机集群的权重差值(简称为a差值),红色b表示红方地面部队的权重差值(简称为b差值)。由 图5可知,BR1、BR2、RER1的 权重没有变化,表明在对抗过程中其收益权重是相互独立的。BC1、BC2的a差值曲线递减,说明蓝方认为EI使 得BC1、BC2的 作 战 能 力 削 弱;b差 值 曲 线也递减,说明红方认为EI使得BC1、BC2的威胁程度降低。

图5 自适应权重差值曲线Fig.5 Curves of adaptive weight difference

RER2的a差值曲线递增,说明蓝方认为EI使得RER2的威胁程度增加;b差值曲线也递增,说明红方认为EI使RER2的作战能力增强。RAD1的a差值曲线非线性递增,说明蓝方认为EI使得RAD1的威胁程度非线性增加;b差值曲线非单调增加,k∈[1,9]时红方认为EI使得RAD1的 作战能力增强,k∈[10,16]因受损较大使得增强后的作战能力有所削弱。RAD2的a差值曲线非单调增加,k∈[1,14]时蓝方认为EI使得RAD2的威胁程度增加,k∈[15,16]因受损较大使得增加的威胁程度有所降低;b差值曲线非单调增加,k∈[1,14]时 红 方 认 为EI使 得RAD2的作战能力增强,k∈[15,16]因受损较大使得增强后的作战能力有所削弱。

5 结 论

针对无人机集群对抗博弈时目标收益函数的动态变化问题,本文以无人机集群空地对抗为作战场景,分析动态变化的战场态势,提出一种基于战场态势的收益权重自适应计算方法,改进动态博弈的目标收益函数,主要结论:(1)非线性动态系统与博弈论相结合,建立无人机集群空地对抗博弈模型,提出非完全信息下目标选择概率的生成方法,得出的动态命中因子能适应不同打击策略下的对抗行为;(2)空地对抗仿真实验表明,提出的自适应收益权重能够表征对抗策略差异下的不同收益,通过权重差曲线可以表征自适应权重对不同策略的灵敏程度。与静态权重模型相比,自适应权重模型的目标收益刻画态势的准确性更高。

猜你喜欢

蓝方红方集群
功能性新材料产业集群加速形成
海上小型无人机集群的反制装备需求与应对之策研究
培育世界级汽车产业集群
暗号
勤快又呆萌的集群机器人
暗号
暗号
试论棋例裁决难点
试论棋例裁决难点
提示棋例的盲点