无人机反应式扰动流体路径规划

2023-03-06吴健发王宏伦王延祥刘一恒

自动化学报 2023年2期

吴健发王宏伦王延祥刘一恒

目前,随着无人机(Unmanned aerial vehicles,UAV)的作业空域,由中高空向低空乃至超低空不断拓展,其所面临的障碍环境也日趋复杂,具体表现为低空障碍具有密集性、动态性和不确定性的特点[1].复杂障碍环境对无人机的飞行安全带来了极大的挑战,同时也对无人机的自主控制能力提出了更高要求.作为无人机自主控制能力的关键技术,在线路径规划方法受到广泛关注,从决策行为角度看,可大致分为慎思式和反应式两类方法[2-3].

慎思式在线路径规划方法主要基于全局静态障碍信息和对动态障碍的状态预测信息进行决策,其代表性方法为基于预测控制的路径规划方法,即预测有限步长内的障碍物状态,基于此优化该时间段内的控制序列,最后执行当前时刻所需控制输入并以此类推,例如Lindqvist 等[4]和茹常剑等[5]采用非线性模型预测控制方法直接产生规避机动的控制输入;Luo 等[6]和Wu 等[7]将势场类路径规划方法与滚动时域控制策略(Receding horizon control,RHC)相结合,通过RHC 策略在线优化势场类方法的参数,以应对复杂多变的障碍环境.这类方法虽然能取得较好的规划效果,但由于障碍状态预测和串行优化控制序列两大过程需要耗费较长的计算时间,因此可能无法满足复杂环境下规划的实时性要求.

与慎思式方法相反,反应式在线路径规划方法一般不需要对未来障碍状态进行预测,而是基于当前或过去检测到的障碍与规划主体间相对状态进行快速决策,例如Steiner 等[3]提出一种基于开放扇区的无人机反应性避障路径规划方法,该方法根据机载激光雷达的二维扫描信息和对无人机过去机动行为的短期记忆信息,设计了一系列规避规则;魏瑞轩等[8]借鉴生物条件反射机制,提出基于Skinner理论的无人机反应式应急规避方法;Hebecker 等[9]将无人机传感器视场离散化为网格地图,然后基于障碍在网格地图中的分布情况采用波前算法实现局部三维路径规划.

近年来,以深度强化学习为代表的新一代人工智能方法广泛应用于各类复杂系统的优化控制问题,此类机器学习方法具有如下优点[10-12]: 1)不依赖于环境模型和先验知识,仅需要通过与环境进行交互即可实现策略的升级;2)所引入的深度神经网络具有强大的非线性逼近能力,可以有效应对高维连续状态-动作空间下的优化控制问题(三维复杂障碍环境下无人机避障路径规划的本质);3)由于深度强化学习得到的策略在使用时只需进行一个神经网络的前向传播过程,非常适用于具有高实时性需求的决策任务.基于上述优点,部分学者对其在反应式路径规划中的应用进行了一定的探索,例如Guo 等[13]提出一种面向离散动作空间的分层Q 学习反应式路径规划方法,可用于动态威胁环境下的无人机自主导航;Tai 等[14]、Wang 等[15-16]和Hu 等[17]则针对连续动作空间,基于深度确定性策略梯度算法(Deep deterministic policy gradient,DDPG)(也是应用最为广泛的连续型深度强化学习方法之一)及其衍生算法设计反应式路径规划方法.这些方法均实现了良好的避障效果,但仍有如下两个问题值得进一步进行深入研究:

1)深度强化学习本质上属于一种通用型的决策方法,在处理路径规划这种特定问题时可能难以兼顾安全性和路径质量.从上述文献的仿真结果可以看出,直接使用深度强化学习方法生成控制输入以规划路径虽然能确保无人机快速安全避障,但路径的平滑性并不理想,不利于底层控制器精确跟踪.如果能将深度强化学习与经典路径规划方法有机结合,分别发挥二者在优化速度和路径规划质量方面的优势,则有望取得更好的规划效果.然而,如何设计此类反应式路径规划架构,使其能有效应对复杂的障碍环境(如动静态障碍并发、多障碍、环境中存在不同形状尺寸的障碍等),目前仍处于探索阶段.

2)基于深度强化学习的路径规划方法需要无人机与模拟的任务环境进行交互,并根据环境的反馈不断更新深度神经网络的权重,最终提取训练好的深度动作网络用于实际环境下的在线规划.因此如何设计与所用路径规划方法相适配的模拟训练环境,对于提升训练效率并保障动作网络在复杂障碍环境下泛化性能至关重要.遗憾的是,上述文献并没有对训练环境的规范性建模方法进行针对性的研究.

针对上述两个问题,本文提出一种基于深度强化学习的无人机反应式扰动流体路径规划架构,主要贡献如下:

1)在一种经典自然启发式路径规划方法: 扰动流体动态系统算法(Interfered fluid dynamical system,IFDS)[7,18-20]基础上,进一步引入无人机运动学模型和约束条件以提升规划路径的可跟踪性,改进算法称为受约束IFDS 算法(Constrained-IFDS,C-IFDS).

2)将深度强化学习中的DDPG 算法与C-IFDS 算法相结合,分别发挥二者在实时性和生成路径质量方面的优势,构建反应式路径规划架构.该架构以C-IFDS 算法为路径规划的基础方法,根据当前各障碍与无人机的相对状态、无人机自身状态和障碍包络形状,通过DDPG 算法在线优化对应障碍的反应系数和方向系数,继而计算相应的总和扰动矩阵修正无人机的飞行路径,实现反应式避障.

3)提出一种与上述反应式路径规划架构相适配的强化学习训练环境规范性建模方法,以提升训练效率.

1 问题建模

1.1 无人机运动学模型与约束

假设飞控系统可保证无人机姿态和速度的稳定,可建立如下运动学模型:

P=[x,y,z]T表示无人机的三维位置;V为飞行速度;γ和χ分别为航迹倾角和航迹偏角;g为重力常数;作为控制输入的nx、ny、nz表示沿航迹系x、y、z轴的过载.该式所描述的运动学模型还须满足如下约束条件:

1.2 障碍环境建模

为了避免过于精细地描述飞行环境信息,提升路径规划效率,可采用标准凸面体包络对地形或威胁进行等效.对于地形或其他静态障碍可用相应凸多面体及其组合体直接等效,例如延绵的山脉可用半球体等效,建筑可视为平行六面体或圆柱体;对于动态威胁(如入侵飞行器) 可建模为具有速度的球体.因此,可建立如下障碍/威胁的等效标准凸面体包络方程:

式中,a,b,c ＞0 和p,q,r ＞0 分别决定了障碍物的覆盖范围与形状,例如: 当p=q=r=1 且a=b=c时,障碍为圆球;当p=q=1,r ＞1 且a=b时,障碍为圆柱;P0=[x0,y0,z0]T表示障碍物中心;无人机自身安全半径为RA;Γ(P)＞1,Γ(P)=1和Γ(P)＜1 分别表示无人机位置P位于障碍物等效包络的外部、表面和内部.

2 受约束扰动流体动态系统路径规划方法

IFDS 路径规划方法模拟了自然界水流的宏观特征: 当无障碍物时,水流沿直线流动;当遇到障碍物时,水流总会平滑地绕过该障碍并最终流向终点.基于障碍物的位置、速度、形状等具体信息,该方法可将障碍物对初始流线的扰动影响量化表示,经计算得到的扰动流线即可作为规划路径.传统IFDS方法的基本原理如下[18-19].

假设无人机当前位置和目的地位置分别为P和Pd=[xd,yd,zd]T,飞行速度为V.当环境内不存在障碍物时,初始流场(飞行路径)应为从P到Pd的直线,惯性系下的初始流速(飞行速度矢量)u(P)应为:

当环境中存在K个障碍物时,障碍物对u(P)的干扰影响可用总和扰动矩阵表示:

式中,ωk(P) 为第k个障碍物的权重系数,该值取决于无人机与障碍物等效表面的距离,距离越大权重系数越小;Mk(P) 为第k个障碍物的扰动矩阵.ωk(P)和Mk(P) 的公式如下:

式中,Γ(P) 表示由式(3)定义的障碍包络方程,I为三阶单位吸引矩阵.式(7)等号右边第2 项和第3 项分别为排斥矩阵和切向矩阵;ρk和σk分别为对应障碍的排斥反应系数和切向反应系数,其值决定了规划路径的形状,值越大,规避障碍的时机越早;nk(P) 为径向法向量,垂直于障碍表面向外;tk(P)为惯性系O-xyz下的切向矩阵,推导过程如下.

在与nk(P) 垂直的切平面S上定义两个相互垂直的切向量tk,1(P) 和tk,2(P):

以tk,1(P)、tk,2(P)、nk(P) 为x′、y′、z′三轴建立坐标系O′-x′y′z′,则切平面S内任意单位切向量在O′-x′y′z′表示为:

式中,θk ∈[-π,π] 为任意切向量与x′轴的夹角,称为切向方向系数,决定流线的方向.

式中,v(P) 为障碍总和速度矢量,定义为:

式中,vk为第k个障碍物的速度矢量.

由上述推导过程可以看出,传统IFDS 在规划时并未直接考虑无人机的运动模型和约束.因此,本文引入了如式(1)的模型和式(2)的约束对扰动流速进一步修正,改进后的算法即为受约束IFDS (C-IFDS)算法.假设当前时刻为n,此时航迹倾角和航迹偏角分别为γn和χn,则修正步骤如下:

步骤1.式(12) 所计算出的扰动流速为无人机规避障碍的期望速度,据此计算期望航迹角γc和χc,以及相应期望角速率,分别如式(14)、式(15)所示:

步骤2.在式(15)中引入式(2)的角速率和航迹倾角约束,可计算出如下实际可达的角度γaf和χaf:

步骤3.将γaf和χaf代入式(15),得到受约束的角速率

步骤4. 将代入式(1)中的航迹角方程,得到此时按规划路径飞行的需用过载nx、ny、nz,并根据式(2)对需用过载进行约束.

步骤5.将约束后的过载作为控制输入代入式(1)的速度和航迹角方程中,可求解得到下一个路径点位置.

3 基于深度强化学习的反应式扰动流体路径规划架构

由式(7)可以看出,扰动矩阵Mk(P) 除了与无人机位置P和障碍方程Γk(P) 等不可更改的因素有关外,还与两个可调的反应系数ρk和σk以及一个方向系数θk有关,其对规划航路的影响如图1 所示.

图1 不同反应系数和方向系数组合对规划路径的影响Fig.1 Effects of different combinations of reaction coefficients and direction coefficients on planned paths

如图1 所示,不同系数的组合能够决定路径的形状和方向.在之前的研究中[7,18-20],大多采用RHC策略在线优化这些系数.然而,RHC 的串行求解机制并不能很好地满足复杂障碍环境下的强实时性需求,因此本文将强化学习中的DDPG 算法与C-IFDS 算法相结合,将C-IFDS 算法作为路径规划的基础方法,经由DDPG 算法训练得到的神经网络用于优化相应的路径规划参数,从而构建反应式路径规划架构.

DDPG 是Lillicrap 等[21]提出的一种面向连续状态/动作空间的深度强化学习方法.该方法使用深度神经网络逼近价值函数和确定性策略,可以看作深度Q 学习与动作-评价算法的结合.DDPG 中共使用了动作现实网络、动作目标网络、评价现实网络和评价目标网络4 个神经网络.两个评价网络的参数随机给定,两个动作网络的参数则通过深度学习方法对传统方法进行输入输出拟合而给定,通过这种方式,动作网络可以获得一个初始可行解,在此基础上,进一步部署强化学习训练过程,可以提高算法的训练效率和收敛性.本文反应式路径规划的DDPG 训练机制如图2 所示,步骤设计如下.

图2 所提反应式路径规划的DDPG 训练机制Fig.2 DDPG training mechanism of the proposed reaction path planning

在训练回合j(1≤j ≤M) 时(M为最大回合数),首先,初始化随机噪声π1以及从模型对象(即C-IFDS 与无人机运动学模型)和训练环境(即无人机与障碍间的相对几何关系)中得到的观测量o1,本文定义如下:

式中,Δxk、Δyk、Δzk分别为无人机与障碍物k的中心在惯性系三轴方向的相对位置; ΔLk为无人机到障碍物k表面的距离; ΔVxk、ΔVyk、ΔVzk为无人机与障碍物k的中心在惯性系三轴方向的相对速度幅值.注意需要对o中各量进行近似地归一化处理,确保其数值处于同一数量级,提高网络训练的收敛性.

然后,进入如下循环过程:

步骤1.动作现实网络根据从对象模型及环境信息得到的观测量选择一个动作输出a,并与噪声叠加,增加探索性,最终得到的动作下达给对象模型执行.上述过程可表述为:

式中,t(1≤t ≤T) 为当前迭代次数,T为最大迭代次数;A表示动作现实网络,λA为其参数;ot为当前的观测量;at为最终对象执行的动作量,本文中定义为C-IFDS 的2 个反应系数和1 个方向系数:

式中,动作的上下界在本文中设置为ρk ∈[1, 5],σk ∈[1, 5]和θk ∈[0,π].

步骤2.对象模型执行at,返回路径规划奖励rt和新的观测量ot+1,然后将状态转移过程{ot,at,rt,ot+1}存入经验存储集合中.

步骤3.利用动作目标网络得到的动作输出和评价目标网络得到的Q 值计算期望Q 值以切断相关性,提高收敛性:

式中,C＇和C分别表示评价目标网络和评价现实网络;分别为评价目标网络和评价现实网络的参数;A＇表示动作目标网络;为动作目标网络参数;γ′为奖励衰减系数.

步骤4.从经验存储集合中,采样NS个状态转换过程数据,作为动作网络和评价网络训练的一个小批量数据.该过程采用基于优先级的经验回放机制[22-23],即优先采样Q 值估计误差较大的样本,以提高训练效率,相应样本i的时间差分误差δi定义如下:

则样本i的采样概率Pi为:

式中,α∈[0, 1] 用于调节优先程度(当α=0 时退化为均匀采样);pi为样本i的优先级,定义如下:

式中,ε用于防止概率为0.

由于基于优先级的经验回放改变了样本的采样频率,因此需要引入重要性采样更新样本计算梯度时的误差权重wi:

式中,β用于控制校正程度.

步骤5.通过Q*和评价现实网络输出Q 值的均方差作为损失函数计算评价现实网络的梯度,评价现实网络的损失函数L由下式计算:

式中,C的梯度可由L计算.

步骤6.使用Adam 优化器[24]更新至

步骤7.动作现实网络的目标是使评价网络的输出Q 值增大,得到可以获得更多奖励的策略,所以动作现实网络的梯度通过评价现实网络的梯度计算:

式中,J表示给定策略的期望回报.由式(27)可知,J对的梯度由C对控制输入a的梯度点乘A对其参数的梯度得到.

步骤8.使用Adam 优化器更新至

步骤9.用现实网络的参数渐变更新目标网络的参数:

式中,τ是渐变更新系数.然后返回步骤1.

当迭代次数达到最大值T或达到此时设定的终止条件(例如无人机与障碍发生碰撞或无人机成功到达目的地)时,进入下一回合,直至达到最大回合M结束训练.通过上述迭代过程,DDPG 深度强化学习模型通过对象模型及环境不断学习,调整自身网络参数,使得自身性能不断增强.

评价网络和动作网络所采用的网络结构如图3所示,其中,评价网络包括观测量输入通路和动作量输入通路;整个网络由输入层、全连接层(FC)、线性整流(ReLU)激活函数层和添加层(ADD)组成;动作网络由输入层、全连接层、ReLU 激活函数层和双曲正切(tanh)激活函数层组成.全连接层节点数均为128.

图3 评价网络和动作网络结构Fig.3 Structures of critic network and actor network

经过上述迭代训练得到的动作网络可用于对CIFDS 中反应系数和方向系数的优化,该系数优化机制由多个经DDPG 算法训练好的深度动作网络并行组成,其数量与当前检测到的障碍物数量相同.对于各个障碍物,首先判断其形状(球体、圆柱等)和类型(静态障碍或动态威胁),然后选择对应的DDPG 动作网络(障碍形状和类型对网络选择及训练环境建模的影响详见本文第4 节),每个动作网络以当前无人机与对应障碍物的相对状态(相对位置、速度、距离)和无人机自身状态(航迹角)作为输入项,以对应的反应系数和方向系数组合作为输出项,通过式(7)计算生成各障碍对应的扰动矩阵Mk(P).最终通过加权求和的方式计算出总和扰动矩阵(P),从而实现对空间中多个障碍物的规避机动,反应式路径规划流程如图4 所示.

图4 基于深度强化学习的反应式扰动流体路径规划总体流程图Fig.4 Overview flow chart of the DRL-based reaction interfered fluid path planning

4 面向无人机反应式路径规划的强化学习训练环境建模

本文反应式路径规划方法的关键在于训练,而在训练中最为重要的部分就是对规范性模拟环境的搭建,这也是之前研究所相对忽视的.具体建模过程如下.

首先,需要根据障碍物的类型和形状精细化地设计相应的模拟环境,也就是说,针对不同类型或形状的障碍物应设计不同的模拟环境,由不同类型模拟环境训练出的动作网络将组成一个网络集合,在真实环境应用时,无人机应首先判断障碍物的类型,然后选择对应的网络优化C-IFDS 中的系数(如图4 所示).原因有以下两点: 1)不同形状的障碍可能对C-IFDS 中反应系数和方向系数的选择产生影响(特别是方向系数),例如当无人机遭遇圆柱体障碍时,一般会倾向于规划使无人机沿圆柱体侧面进行规避的路径(如θ=0,π等);而当遭遇半球体障碍时,还可规划使无人机沿球体上方越过的路径(如θ= 0.5π等);2)静态障碍和动态威胁在环境构建方面存在差异,主要体现在对环境中相对速度幅值和相对初始位置的设定上.对于相对速度幅值设定的差异,首先,模拟环境中统一设定障碍或威胁保持静止状态,将无人机的飞行速度等效为无人机与障碍或威胁的相对速度;然后,当无人机在模拟环境中以恒定速率飞行时,其与静态障碍的相对速度幅值始终为其飞行速度幅值,因此在每次模拟中不需要改变无人机速度幅值.但对于动态威胁来说,考虑到真实任务情景中动态威胁运动的不确定性,因此在模拟环境的构建中会引入不同运动速率的动态威胁,即在每次模拟中设定的无人机速度幅值均有所不同.对于相对初始位置设定的差异,以静态半球体障碍和动态球体威胁为例,如图5 所示,当模拟环境由静态半球体障碍(球心位于地面)组成时,无人机的初始位置只能设置在球心所在水平面之上(称为 “上半球”区域,同理还有 “下半球”区域);相反,当模拟环境由空中的动态球体威胁组成时,无人机的初始位置既可设置在威胁的上半球区域,也可设置在下半球区域.

图5 无人机相对初始位置设定的差异: 以静态半球体障碍和动态球体威胁为例Fig.5 Differences in the setting of UAV initial locations:Taking the static hemispherical obstacle and the dynamic spherical threat as examples

综上所述,对障碍/威胁进行精细化的分类,有助于降低训练环境的设计难度,提升DDPG 训练效率.因此,本文主要考虑静态半球体障碍、静态圆柱体障碍和动态球体威胁三类障碍/威胁.

1)静态半球体障碍

本文设计的模拟训练环境如图6 所示,具体建模步骤如下:

图6 针对静态半球体障碍的无人机反应式路径规划训练环境Fig.6 Training environment of UAV reaction path planning for static hemispherical obstacles

步骤1.设定训练环境中的无人机目的地处于固定位置Pd=(0, 400, 150)m,其在水平面的投影点为Pdxy,障碍球心处于固定位置Oobs=(0, 0, 0)m,障碍等效半径为100～ 300 m 的随机数,Robs=(100+200·rand)m (rand表示[0,1] 的随机数).

步骤2.以Oobs为中心,以PdxyOobs的射线为轴Oobsxobs(该轴与惯性系Ox轴平行),建立直角坐标系Oobs-xobsyobszobs(轴Oobsyobs和Oobszobs分别与惯性系Oy和Oz轴平行且相反).

步骤3.设定无人机的初始位置为P(0),初始航迹角为γ(0)=0,χ(0)=90°,速度幅值恒为V=30 m/s .然后,从P(0) 向下引垂线,其与水平面Oobsxobsyobs的交点为Pxy(0),此时可通过无人机的高度zUAV=|P(0)Pxy(0)|、水平面距离Lh=|OobsPxy(0)|和直线段OobsPxy(0) 与轴Oobsxobs的夹角θh确定无人机与障碍的相对关系,上述3 个量应满足如下约束条件:

式中,εDis ＞0 和εAng ＞0 分别表示一定的距离裕量和角度裕量;θh的约束的意义为: 从俯视角度来看,无人机的初始位置在Oobsyobs轴向上应处于半球体半径所覆盖的 [-Robs,Robs] 范围内,以提升训练过程中无人机与障碍的交互性(如果 |θh| 过大,则可能出现无论如何调整动作量,规划路径均不受障碍明显影响的现象).在此基础上,进一步引入一定的角度裕量,从而进一步提升无人机初始位置选择的灵活性.

步骤4.根据式(29),首先设定zUAV=(50+(Robs-50)·rand)m (即50 m 至Robs内的随机高度)和Lh=600m,则当εAng ≈5°时然后,根据常识,在无人机的初始速度方向与轴Oobsxobs平行且相反的情况下,迎头障碍对无人机的威胁最大(即 |θh| 较小时),因此,随机设定的初始θh应满足一定的概率分布条件,使得随机得到越小|θh|的分布概率较高,反之分布概率越低,从而保证无人机能与环境进行充分交互,避免过早满足重置环境(即更新回合)的条件(见步骤7).本文设定θh满足高斯分布,其概率分布函数为:

式中,σ2为随机变量θh的方差,本文中σ2=4.在生成5 000 次随机初始θh的条件下,其概率分布情况如图7 所示.由图7 可以看出,尽管随机生成|θh|＞的情况非常罕见,但仍存在可能性,因此规定,如果随机生成了则将其分别强制置为

图7 初始 θh 的概率分布Fig.7 Probability distribution of the initial θh

步骤5.根据步骤4 随机产生的变量,生成无人机的初始位置:

则无人机与障碍表面的初始相对距离为ΔL(0)=

步骤6.步骤1～ 5 设置好初始环境后,应设计相应奖励函数r,无人机正是以与环境交互获得的奖励函数值为依据来更新其每一步动作.r由避撞奖励项rCol、航迹角速率奖励项rAng和路径长度奖励项rLen组成:

式中,wCol,wAng,wLen为相应奖励的权重.

rCol表征无人机到障碍等效表面的距离,距离越远,奖励值越大.当无人机与等效障碍发生碰撞时,需要给该奖励项施加一个负的惩罚值pen,该值应与未施加惩罚值时的rCol在量级上大致相等,从而避免出现因惩罚值过大而不易收敛的情况.因此rCol设计如下:

式中,P(t+1) 表示根据当前动作执行C-IFDS 路径规划方法而更新的无人机位置.

rAng表征无人机的航迹角变化量,变化越小,说明无人机机动幅度越小,奖励值越大.因此,rAng设计如下:

rLen表征无人机规划的下一个路径点到目的地的距离,距离越小,说明无人机存在向目的地逐渐靠拢的趋势,对应路径长度可能越短,奖励值越大.因此,rLen设计如下:

式中,LSD为规划起点到目的地的粗略直线距离,其目的在于将rLen的数量级调整至与rCol和rAng大致相等,从而提升学习算法的收敛性;当无人机在训练过程中到达目的地时,则额外给予奖励值rdes.

注1.式(33)～式(35)设置相应分母项的目的,在于使各奖励项在量级上大致相同.

步骤7.设置本回合的终止条件IsDone.当无人机到达以Pd为中心,半径为Rdes的球形区域时,或当无人机与障碍发生碰撞时,以及本回合已达到最大迭代次数T时,触发终止条件结束本回合,在进入下一回合后重新依次随机化设置Robs、zUAV和θh,进行试探学习.则IsDone的公式为:

2)静态圆柱体障碍

针对静态圆柱体障碍的环境构建步骤与静态半球体障碍的基本相同,区别在于除了要随机生成圆柱底面半径(同样记为Robs,计算方法也相同)外,还要随机生成圆柱体的高Hobs,其计算方法与Robs相同,则无人机的随机初始高度改为zUAV=(50+(Hobs-50)·rand)m.

3)动态球体威胁

针对动态球体障碍的环境构建步骤与静态半球体障碍的也基本相同,区别有以下两点:

a)动态球体威胁的等效半径范围修改为Robs=(50+100·rand)m,球心处于固定位置Oobs=(0, 0,150)m,即与Pd处于相同高度.

b)无人机初始高度应处于50 m 至(150+Robs+εDis)m的范围内(同时包含了威胁的上下半球区域),则初始随机高度修改为zUAV=(50+(Robs+150)·rand)m; 初始速度幅值修改为随机值V=(30+30·rand)m/s,以模拟无人机与不同威胁的相对速度.

注2.上述训练环境中的参数可根据实际无人机性能和任务环境进行调整.

5 仿真验证

5.1 案例1.C-IFDS 与IFDS 的性能对比测试

仿真情景设置如下: 无人机的初始位置和目的地分别为(0,0,50) m 和(600,600,50) m,初始速度方向为γ(0)=0 和χ(0)=45°,速度幅值恒定为30 m/s;无人机运动约束为:γ ∈[-π/3,π/3]rad、nx ∈[-0.5, 2]、ny ∈[-2, 2]、nz ∈[-1, 3];在(250,250,0) m 处设置等效半径为200 m 的半球形障碍物(已含无人机安全半径);仿真步长为 ΔT=1 s.为保证对比公平性,两种方法中扰动矩阵参数统一设置为:ρ=2 、σ=4 和θ=π/4.部分受约束的状态和规划路径对比情况如图8所示.

实验结果表明,尽管IFDS 和C-IFDS 均可驱使无人机规避三维空间中的障碍,但采用C-IFDS 时无人机的角速率、航迹倾角和过载可以始终保持在其约束范围内(除图8 所列举的,其他状态均满足相应约束),规划路径的可跟踪性较好(路径能够被无人机精确跟踪的可能性较高).相反,采用传统IFDS 得到的路径则表现出过大的角度和过载变化,这与无人机的实际运动模型不符,意味着规划路径的可跟踪性较差.因此,C-IFDS 是一种比传统IFDS 更合理的方法.

图8 采用IFDS 和C-IFDS 时部分受约束的状态和规划路径的对比情况Fig.8 Comparisons of some constrained states and planned paths when using IFDS and C-IFDS

图9 DDPG 训练过程中的奖励函数情况Fig.9 Reward functions in the DDPG training process

5.2 案例2.复杂障碍环境下路径规划性能测试

仿真情景设置如下: 无人机的初始位置和目的地分别为(0,0,400) m 和(5 000,5 000,500) m,初始速度方向为γ(0)=0 和χ(0)=90°,速度幅值恒定为30 m/s;无人机运动约束同第5.1 节;任务空间内存在多个静态半球体和圆柱体障碍,还有一个等效半径为100 m 的动态球体威胁,于第222 s 时突然被无人机检测到,检测后的运动方程为x(t)=4 500 m,y(t)=(4 900-20t)m,z(t)=450 m.DDPG 训练参数如下: 训练回合数为5 000,回合最大迭代次数T为50,评价网络和动作网络的学习率分别为0.0001和0.001,批大小为256,奖励衰减系数γ′为0.99,渐变更新因子τ为0.05,噪声方差为0.1,基于优先级的经验回放机制的参数分别为:NS=106、α=0.6和β=0.4.对比项设置为基于RHC 的C-IFDS 在线航路规划方法,并假设突发动态威胁的运动轨迹能够直接被精确预测(即省略了预测轨迹的时间);为保证对比的公平性,其代价函数组成和各指标的权重与本文方法的奖励函数相同,但取值相反;RHC的解算器为经典的PSO 算法,其种群规模为50,迭代次数为20,滚动步长N分别取1、3 和5 (N=1时,即为贪心算法;由文献[18-19]可知,N=5 时,具有相对最佳的优化效果).仿真计算机配置为: CPU Intel Core i5-4460 3.20 GHz;内存 8 GB.

DDPG 训练过程中的奖励函数情况如图9 所示,在线规划的三维航路如图10 所示(图10 中所绘障碍轮廓均为其等效表面),与动态威胁等效表面的最近距离如图11 所示,规划路径平滑性对比如表1 所示(平滑性指标定义为各段路径三维夹角的平方和除以总路径段数量,值越小越平滑),两类算法的规划时间对比如图12 所示.

图10 案例2 中在线规划的三维路径Fig.10 3D online planned paths in case 2

图11 案例2 中与动态威胁等效表面的最近距离Fig.11 Closest distances to the equivalent surface of the dynamic threat in case 2

图12 案例2 中规划时间对比Fig.12 Comparison of the planning time in case 2

如图9 所示,针对三种障碍/威胁,DDPG 算法可分别在训练过程的约2 200、4 500 和3 500 回合使奖励函数进入收敛状态.如图10～ 12 和表1 所示,本文方法和传统基于RHC 的C-IFDS 方法均能使无人机对三维静态障碍和动态威胁进行有效的在线规避,对比项2 和3 在规划路径长度与平滑性方面与本文方法的规划效果大致相近(本文方法规划路径的长度和平滑性指标甚至更优),但即使在忽略状态预测时间的前提下,其单步平均运行时间也远高于本文方法;而作为对比项1 的贪心算法虽然相较于其他对比项在规划时间方面具有优势,但仍为本文方法单步平均运行时间的8 倍以上,且其规划路径较长,质量较低.

表1 案例2 中规划路径长度和平滑性指标对比Table 1 Comparison of the length and the smooth indexes for planned paths in Case 2

为了进一步验证本文方法的泛化能力以及训练环境规范性建模方法在训练效率方面的优势,本文针对该仿真情景进行了20 次蒙特卡洛对比测试.无人机的初始位置设置为如下随机值: (-500+1 000·rand,-500+1 000·rand,400)m;对比项为仍基于本文架构但未采用本文训练环境建模方法的路径规划方法.具体地,将式(29)θh范围扩大为 [-90°,90°]间的随机值,且不满足类似于图7 的概率分布情况,则以静态半球体障碍为例,对比项训练情况中奖励函数的情况如图13 所示.

如图13 所示,奖励函数并没有如图9(a)一样产生比较明显的收敛趋势,同时,蒙特卡洛仿真结果也表明,基于本文架构和训练环境建模方法时,20 次测试中无人机成功避障并顺利到达目的地的成功率达100%,而对比项仅有60%,这一方面说明本文方法具有较好的泛化能力,另一方面也说明通过对强化学习的训练环境进行规范性的建模,可以显著提升动作网络的训练效率,在回合数相同时能够取得更好的训练效果,从而使无人机的避障成功率更高.

图13 未采用所提环境建模方法时,DDPG 训练过程中的奖励函数情况: 以静态半球体障碍为例Fig.13 Reward functions in the DDPG training process when the proposed environment modeling method is not adopted: Taking the static hemispherical obstacle as an example

5.3 案例3.多动态威胁环境下路径规划性能测试

本节进一步验证本文方法在多动态威胁环境下的路径规划性能,仿真情景设置如下: 无人机的初始位置和目的地分别为(-1 200,-1 200,2 000) m和(4 000,4 000,2 000) m,初始速度方向为γ(0)=0和χ(0)=45°,速度幅值恒定为30 m/s;其他运动学参数和DDPG 参数同第5.2 节;任务空间内存在3 个等效安全半径200 m 的动态球体威胁,其运动模式各有不同,具体为:

1)动态威胁1.匀速直线运动:

2)动态威胁2.蛇形运动:

3)动态威胁3.匀速圆周运动:

则不同时刻无人机的航迹(实线)与规划路径(虚线)如图14 所示,无人机与各威胁等效表面的最近距离如图15 所示.由图14、图15 可见,无人机与威胁等效表面的最近距离为36.43 m,可对多个具有不同运动模式的动态威胁进行有效规避.

图14 案例3 中不同时刻无人机的航迹与规划路径Fig.14 UAV flight paths and planned paths at different times in case 3

图15 案例3 中与各动态威胁等效表面的最近距离Fig.15 Closest distances to the equivalent surface of each dynamic threat in case 3

综上所述,本文将深度强化学习与C-IFDS 相结合的反应式规划方法具有规划速度快、路径质量高等优点,可用于求解复杂障碍环境下的在线三维路径规划问题.

6 结束语

针对复杂障碍环境,本文提出一种基于深度强化学习的无人机反应式扰动流体路径规划架构.首先,在传统IFDS 方法的基础上提出C-IFDS 路径规划方法作为架构中的基础规划方法,该方法引入无人机运动学模型和约束对扰动流速进行可飞性修正;然后,提出面向反应式扰动流体路径规划的强化学习训练环境规范性建模方法,以提升训练效率.最后,采用DDPG 算法在构造的环境中训练相应的深度网络,并利用训练好的动作网络在线优化CIFDS 的反应系数和方向系数.仿真结果表明,在生成路径质量大体相同的前提下,取得了相较于传统RHC 方法更快的规划速度.

今后的研究工作主要集中在以下几个方面:

1)本文架构中的深度强化学习方法可以进一步从以下两个角度改进: a)本文通过对奖励函数加权求和,从而将路径规划问题转化为一个单目标优化问题,尽管这种思路比较简单直接,但也存在着权值不易确定的缺点,因此在未来可考虑在本文路径规划架构的基础上进一步引入多目标强化学习方法[25-26];b)理论上,其他连续型深度强化学习方法亦可应用于本文架构,因此未来可将更先进的强化学习方法(如SAC[27]和TD3[28]等)与反应式路径规划相结合,并与本文方法进行对比测试.

2)将本文架构拓展应用于更多复杂飞行任务中,例如目标跟踪[18-19]、边界监视[20]和编队避障[29]等,同时适时开展相应的实物验证工作.

3)与多数无人机路径规划研究[3-6,8-9,13,15-19]相同,本文架构在规划时只引入了如式(1)、式(2)所示的无人机运动学模型和约束,而并未考虑更为复杂的无人机六自由度非线性动力学模型和约束,以及内环控制器的响应特性,这可能存在着规划指令因无法被控制器及时精确跟踪导致无人机与密集障碍发生碰撞的风险.因此在未来应考虑在本文路径规划架构下,将无人机规划-控制-模型所组成的闭环系统引入所构建的强化学习训练环境中,实现考虑控制器和动力学特性的无人机状态转移,并据此计算相应的奖励函数.