基于SAC算法的无人机自主空战决策算法*

2022-10-17白双霞孟波波梁诗阳李曾琳

指挥控制与仿真 2022年5期

李波,白双霞,孟波波,梁诗阳,李曾琳

(1.西北工业大学电子信息学院,陕西西安 710129;2.西安现代控制技术研究所,陕西西安 710065;3.洛阳电光设备研究所,河南洛阳 471000)

现代战争中,无人机作为作战主力的一部分,在情报、监视和侦察等领域具有突出优势,但无人机不能自主决策的特点限制了其作战能力。因此,无人机空战过程智能化是实现未来空战的关键途径。近年来,各种控制理论为无人机在空战过程中的自主决策提供了解决方案,其中包括直觉模糊、博弈论、动态贝叶斯网络、影响图等方法。但是直觉模糊、博弈论、影响图等方法需要对空战过程进行精确建模,而动态贝叶斯网络难以适应未知情况,这些都导致无人机在空战过程中的自主性大为降低,难以满足未来无人机智能化作战需求。

目前,以机器学习为代表的人工智能技术在众多领域大放光芒。其中,深度学习可以在庞大的数据中发现规则并用于预测和分类,是特征表示与学习二合一的算法。但在数据不足的情况下,深度学习模型效果差强人意。强化学习是机器学习的范式之一,智能体在与环境的交互过程中学习策略,智能体选择的动作可以令自身达到最优状态,达到决策目标。

深度强化学习将二者的优势结合,具有解析状态数据实现自主决策的能力,比较接近人类决策的思维方式,十分适用于实现空战的智能化过程。但现有的基于深度强化学习的无人机空战研究以确定性强化学习策略为主,较少考虑非确定性策略。而非确定性策略将探索和改进集成到一个策略中,适用于解决需要大范围探索优秀经验的问题,在解决无人机空战过程中的自主决策问题方面具有较大优势。

考虑实际的作战空间较大,比较考验强化学习算法的探索能力,本文引入非确定性策略Soft Actor Critic(SAC)算法来实现作战中的无人机自主机动决策过程。首先,以无人机1v1攻防为背景建立了无人机近距空战模型;然后基于Markov决策过程建立了无人机自主机动模型,提出基于SAC的无人机空战决策算法;最后,设计仿真实验，验证该方法在解决无人机在不同空战态势下的机动决策问题上的有效性和优越性,并与双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient algorithm,TD3)算法进行了比较。

1 无人机近距空战模型

1.1 问题描述

本文研究的问题以无人机1v1攻防为背景,在给定作战环境和初始作战条件的情况下,己方无人机能通过当前战场环境及作战双方相对态势信息进行自主决策,使得己方无人机可以率先锁定敌方无人机,使敌方无人机进入己方攻击区并成功打击。通过深度强化学习的方法,完成对机动决策的求解。

整个作战过程主要包括三部分:作战态势接收模块、机动决策模块和运动模块。三个模块的交互过程如图1所示。其中,作战态势接收模块可依据战场环境计算相应态势,并提供给机动决策模块用于决策;机动决策模块采用深度强化学习方法生成己方机动控制量,并提供给运动模块控制己方机动;运动模块通过无人机运动方程更新己方位置和姿态信息,实现机动,并更新战场环境,提供给作战态势接收模块更新态势信息,进入迭代。整个过程的目标是使无人机在作战过程中找到最佳机动方式,可以快速、有效地打击敌机。

图1 作战模块交互过程

为研究方便做出如下假设:

1)战场环境完全可见,不考虑探测、干扰等环节；

2)达到毁伤条件时认为目标被击毁；

3)敌我态势信息透明。

1.2 无人机近距空战模型

以无人机1v1攻防为背景建立无人机近距空战模型,如图2所示。红色无人机为己方无人机,蓝色无人机为敌方无人机。坐标系为无人机所在的三维空间坐标系,其中,原点表示作战区域中心,轴正方向为正北,轴正方向为正东,轴正方向为垂直向上。

图2 无人机近距空战模型

(1)

(2)

(3)

无人机的作战能力受到空空导弹性能的约束。空空导弹的发射区范围由空空导弹的最大射击距离、最小射击距离及最大离轴发射角共同决定。假设无人机的火控系统探测到目标,获得目标的位置、速度等数据,计算出导弹射击诸元,并且将数据对导弹装载后,导弹才满足发射条件。因此,空空导弹需要一定的目标锁定时间才可以发射。设敌方连续处于我方导弹发射区的时间为,当满足式(4)时,认为我方导弹发射成功,且敌方被我方导弹摧毁,我方作战成功。

(4)

2 基于深度强化学习算法的无人机空战决策算法

当作战区域较大时,策略难以通过常规探索获得环境提供的正面反馈,使其优化变得尤其困难。当算法未能探索到可能存在的最优解时,策略无法改进,容易陷入局部最优。因此,增强策略的探索极为重要。TD3算法的探索策略使用了高斯噪声,即在当前学习到的策略基础上添加随机无向噪声,在最优动作的邻域内随机探索,称为抖动策略。然而,由于抖动策略未考虑每次探索动作的价值,存在数据利用率低、时间长等不足。针对这一问题,相关学者提出了SAC算法。因此,本文基于SAC算法研究无人机空战决策问题。

2.1 基于Markov决策过程的无人机机动模型

1)无人机运动模型

在考察无人机运动时,将其视为质点。依据积分原理,建立具有三自由度的无人机运动方程,即

(5)

其中,、、分别表示我方无人机在三个坐标轴的位置分量,表示己方无人机的速度,表示己方无人机的俯仰角,表示己方无人机的航向角,表示敌我双方的距离,表示相对方位角,表示积分步长,表示加速度大小,表示俯仰角变化量,表示航向角变化量。

2)无人机飞行动作空间

无人机运动方程表明,通过在有效积分步长内对、、进行设定,无人机可在三维空间实现一系列的机动过程。因此,可以得到无人机飞行动作空间,即

={,,}

(6)

3)无人机飞行状态空间

根据己方无人机状态量以及敌方无人机状态量计算战场态势信息作为无人机的飞行状态空间,即

={,,,,,,,}

(7)

4)作战效果评价奖励函数

根据式(4),将奖励划分为距离奖励和角度奖励,得到相应的奖励函数,即:

(,)=·+·

(8)

(9)

(10)

(11)

其中,′和″是达到限制条件时的稀疏奖励,当无人机探索到一个较好的策略时获得激励,保留已探索到的策略。、为距离奖励与角度奖励的权重。本文设定==05。

2.2 基于SAC算法的无人机空战决策算法

图3所示为基于SAC算法的无人机空战决策框架,SAC算法通过神经网络来实现时,共包含一个策略网络、两个Soft网络和、两个Target Soft网络′和′。其中,、、、′,′均表示对应网络的参数。

图3 基于SAC算法的空战决策框架

框架流程如下:

1)作战态势接收模块将从战场环境中获取的态势信息进行处理,将其作为智能体的状态∈传递到SAC算法模块。

2)策略网络输出动作∈。动作的产生由策略网络和噪声共同决定。其中,策略网络根据输入状态,计算动作的均值和方差，并从正态分布采样得到，最后输出动作∈，如下所示:

,=()

(12)

=(,)=+*

(13)

可得出

=tanh()

(14)

3)运动模块执行动作,战场状态信息更新为+1∈,并反馈奖励=(,)。同时将状态转移量(,,,+1)存储到经验存储模块,用于SAC算法中网络的更新。

智能体的策略在优化过程中,要求同时最大化环境反馈值和策略的探索程度。SAC算法添加了最大熵模型来实现策略随机化,使输出的每个动作的概率尽可能分散,而非集中在同一个动作上,以增强策略的探索。策略服从某一分布,策略(·|)的随机性由策略的熵((·|))衡量。为了最大化策略的熵,SAC算法将熵引入期望函数中。SAC算法的累计奖励为

(15)

(16)

SAC算法中的Soft函数定义为

(,)+(+1,+1)[(+1,+1)-

log(π(+1|+1))]

(17)

在更新策略网络时,策略网络的损失函数()为

()=～,～[log(|)-(,)]

(18)

在更新网络的参数时,损失函数()为

(19)

为了防止值的过估计,目标最优值定义为

′(+1,+1)=min(′(+1,+1),′(+1,+1))

(20)

算法训练过程中,前期需要大量的探索来保证策略获取不同价值的样本并进行优化;后期稳定后,需要相对小的探索来使得策略趋于稳定。当设定为固定值时,不能同时满足前期和后期的探索需求。所以,SAC算法中的需要调整和优化，使得策略的熵在奖励函数中占据不同的权重。

的自适应损失函数为

()=[-log(|)-]

(21)

其中,为目标熵值。

3 仿真验证与分析

本节通过设计仿真实验,实现了基于SAC算法的无人机空战决策算法,并与TD3算法进行了对比。实验时,红方为采用深度强化学习算法的智能体,蓝方为非智能体,做固定机动。实验过程中,分别统计两种算法的训练结果,从是否作战成功、作战成功步长、最大奖励、奖励收敛回合等方面评估机动决策任务的完成情况并对比两种算法的优劣。其中,作战成功代表在作战过程中我方击败敌方;作战成功步长代表我方击败敌方所消耗的时间,限制无人机最大作战步长为600。

3.1 不同作战环境下训练的效果对比

为比较TD3算法与SAC算法的训练效果,本文设计了三个不同的作战环境,不同的作战环境中红蓝双方具有不同的初始态势。作战环境设置如表1所示。

表1 红蓝双方初始态势设置

环境1中红蓝双方初始距离与初始相对方位角较为适中,环境2中双方初始相对方位角较大,环境3中双方的初始距离较大。在不同作战环境下对两种算法进行训练,并比较训练结果。两种算法的训练结果如表2所示。

表2 算法训练结果

由表2可以看出,在环境1、2中,两种算法均能完成训练,实现无人机机动决策过程,使得红方无人机成功锁定敌方无人机并完成打击任务。相较于TD3算法,SAC算法的收敛速度更快,并且可以获得更高的奖励值,能够通过更少的步长完成任务。在环境3中,由于初始环境较为苛刻,TD3算法未能完成训练和作战任务。SAC算法较好地完成了训练,并且成功完成任务。

为了更好地评估算法收敛速度,在实验过程中记录每一回合我方获得的总奖励值,并以此判定奖励值是否收敛。图4分别显示了三种环境下,2000个训练回合中SAC算法和TD3算法总奖励值的变化曲线。

图4 奖励值曲线对比图

图4表明,SAC算法和TD3算法最终均能收敛,但SAC算法的收敛速度更快,且最终收敛到更高的奖励值。从实验结果来看,受初始距离和初始相对方位角的影响,TD3算法未能在每个环境中全部完成训练,而SAC算法均能在有限回合内快速收敛并完成任务。SAC算法相对于TD3算法具有更快的训练速度与更好的训练结果,表明基于SAC算法的无人机空战决策算法的探索性能更强,更易于探索到有意义的经验,当被局限于局部最优解时也能够持续探索并最终实现全局收敛。

3.2 单一作战环境测试

在环境2中，对两种算法进行对比测试,比较红方作战轨迹、飞行姿态(俯仰角、航向角和速度),以及红蓝双方相对距离与相对方位角变化过程,进一步体现算法的差异。环境2中红蓝双方的初始信息如表3所示。

表3 环境2中作战双方的初始信息

图5展示了不同平面内，无人机接近敌方并满足发射条件的作战过程。图5 1)显示无人机在水平面的作战轨迹。从图中可以看出,作战开始后,无攻击能力的蓝方做随机运动,相对于红方无人机的相对方位角与距离较大。红方为了令蓝方进入自身的导弹发射区,首先快速转换航向,缩减相对方位角,对蓝方呈尾后攻击态势。之后红方快速调整速度,缩短与蓝方之间的距离。

图5 无人机作战轨迹对比图

图5 2)显示作战时无人机的高度变化。图中可以看出,在红蓝双方具有高度差,且蓝方高于红方的初始态势下,基于SAC算法的红方在运动过程中逐渐减小高度差异,并最终与敌方保持在同一高度,而基于TD3算法的红方并没有消除高度差异,始终处于蓝方高度之下。

两种算法的决策过程均为首先改变方向,减小相对方位角,然后缩短距离,最终均满足导弹发射条件。然而,对比图5 1)与图5 2)可以看出,基于SAC算法的红方中前期转弯半径更小,更快地减小了相对方位角,且最终满足发射条件时,相对方位角更小,更接近敌方。同时,基于SAC算法做出机动决策的红方消除了高度差异,更符合真实作战中作战方需避免处于敌方高度以下，从而无法掌握主动权的情况。

综合对比作战轨迹,相对于TD3算法,SAC算法产生的机动策略能令红方更快地满足发射条件,实现成功作战,且更具备真实作战的合理性。

从图6可以看出,相对于TD3算法,在0～180步内,SAC算法令无人机的相对方位角减小更快,距离增加较少。在180步以后,SAC算法中作战距离缩减更快,最终早于14个步长满足导弹发射条件。此外,实现目标锁定时,SAC算法的敌我距离和相对方位角更小,更有利于对目标的摧毁。

图6 敌我相对态势变化曲线

为了体现无人机在飞行过程中的姿态变化,记录了无人机在作战过程中的俯仰角、航向角和速度变化,如图7所示。

图7 红方无人机姿态变化曲线

图7 1)可以看出,在SAC算法中,无人机的俯仰角范围为(-5°,25°),在前期有大幅度上升过程,说明无人机通过机动消除了高度差异。而TD3算法中,无人机俯仰角范围为(-7°,7°),且均在0°附近大幅度波动,因此未能消除高度差异。图7 2)可以看出,在作战前期,两种算法中无人机的航向角变化量大小相同。但在后期,基于TD3算法决策的无人机航向角更小,使得其与目标的航向偏差更大,因此相对方位角更大。图7 3)可以看出,在作战前期,红方转变航向角,基于SAC算法决策的无人机的速度更小,无人机转弯半径更小。在作战中期,两种算法中的无人机均增大速度来缩减距离,直至无人机达到最大速度。在作战后期,敌我相对距离仍大于导弹的最大发射距离,TD3算法却令无人机逐渐减速,这导致其作战距离减小更慢,增大了两种算法的作战距离差异。

经分析可知,两种算法的俯仰角、航向角、速度变化符合真实作战,且与作战轨迹相符合。其中,基于SAC的无人机空战决策算法对俯仰角、航向角和速度具有更好的控制能力,使得作战效果更加优异。

4 结束语

本文针对1v1空战过程中的无人机自主决策问题,采用Markov决策过程建立了无人机自主机动模型,设计了无人机飞行状态空间、动作空间和奖励函数,提出了基于SAC的无人机空战决策算法,并建立了对应的作战环境,进行仿真验证。仿真结果表明,本算法可实现无人机在空战环境中的自主决策过程,实现对敌方无人机的率先锁定和攻击。并且从仿真结果可以看出,相较于TD3算法,本算法训练所需时间更短,成功率更高,能更好地控制无人机的飞行姿态,使无人机的飞行过程更加符合真实作战场景。