APP下载

基于导向强化Q学习的无人机路径规划

2021-10-20周彬郭艳李宁钟锡健

航空学报 2021年9期
关键词:信号源信号强度导向

周彬,郭艳,李宁,钟锡健

陆军工程大学 通信工程学院,南京 210007

无人机(Unmanned Aerial Vehicle,UAV)作为一种新型的智能载体,具有机动性高、灵活性强、结构简单、造价低、隐蔽性强和安全性高等优势,在地质气象观测、快递运输等民用领域发挥了重要作用,同时也被广泛应用于军事领域中执行监视、侦察、追踪等任务[1]。路径规划是指在有障碍物的环境中,根据最短路径和最短规划时间等评估标准,找到一条从初始位置到目标位置的最优/较优的无碰撞路径[2]。无人机应用场景一般地域广阔、环境复杂,如何快速准确地规划出一条安全、快捷的路径,是无人机应用的重要研究方向[3]。

针对无人机路径规划问题,大量研究进行了有益的探索[4-12]。从所需初始信息的完整程度来看,可将现有的无人机路径规划方法分为两大类:基于先验完整环境信息的全局路径规划方法和基于部分环境信息的局部路径规划方法[4]。目前,对于全局路径规划方法的研究较为成熟,如A*算法[5]、Voronoi图[6]和人工势场法[7]等。但全局路径规划方法大都需要提前建立好完整模型,当环境复杂时计算开销非常大;且在实际应用中,无人机面对不断变化的动态环境时很难掌握全局信息,使用确定性方法来实现路径规划过程的最优控制是不可行的[8]。因此,基于部分未知或完全未知的环境信息进行路径规划,更具有实际意义,也更受关注。在这方面,很多学者已经进行了大量研究,并取得了一定的成果,如基于神经网络(NN)[9]、粒子群优化(PSO)[10]和强化学习(RL)[11]等算法的局部路径规划方法。这些方法在一定程度上克服了先验环境信息不足的问题,极大地提高了无人机在复杂环境下的适应性,且能够获得较好的路径[12]。

随着机器学习的迅速发展,人们试图利用基于深度学习(Deep Learning,DL)和强化学习(Reinforcement Learning,RL)的方法来解决路径规划问题[13]。其中最具代表性的是基于马尔可夫决策过程的标准Q学习算法[14],作为一种监督式学习方法,它能够根据环境的变化,通过学习机制为无人机规划出一条较优的无碰撞路径。文献[15]通过结合贪婪策略和玻尔兹曼概率选择策略提出了一种新的动作选择策略,避免标准Q学习算法陷入局部最优,并通过启发函数限定无人机飞行的方向角度,加快无人机路径规划的收敛速度。文献[16]通过基于位置信息的Q学习算法导航无人机,并利用函数逼近的方法降低Q函数的维数,加快算法的收敛速度。由此可见,虽然Q学习算法在无人机路径规划问题上研究已久,但如何解决其容易陷入局部最优、收敛速度慢等问题仍是现在研究的热点[17]。

针对上述问题,本文提出了基于接收信号强度(RSS)的路径规划方法,利用无人机探索环境获得的信号强度更新回报值,然后根据玻尔兹曼(Boltzmann)概率选择策略指导无人机路径规划。并在仿真中与基于位置信息的Q学习算法比较,验证了所提算法的优越性。同时,根据无人机飞行环境的特点,引入“导向强化”原则强化Q学习算法的学习效率,提高路径规划收敛速度,大大减少了迭代次数。最后,利用数值仿真验证了所提算法的优越性。

本文组织如下:第1节介绍了系统框架和模型,第2节介绍了基于接收信号强度的导向强化Q学习的无人机路径规划,第3节进行仿真结果分析,第4节给出了结论。

1 系统框架和模型建立

1.1 接收信号强度模型

一般而言,信号传输链路所处的环境决定该传输链路为视距传输模型(LOS)还是非视距传输模型(NLOS)。由于无人机与目标点之间的环境未知,障碍物或建筑等的位置、高度等信息不可完全获取,无人机与目标信号源之间的信号传输可能会受到障碍、建筑等的影响。所以,假设该链路同时存在LOS和NLOS,2种链路中的选择概率由无人机与目标点之间的环境类型所决定。本文使用一种常用的依概率选择的传输损耗模型[18],无人机ui与可疑信号源D之间的路径损耗为

(1)

LoS的概率由无人机与信号源之间的环境所决定,可表示为

(2)

(3)

由此可得,无人机ui与可疑信号源D之间的路径损耗为

(4)

假设无人机和信号源的天线都是全向天线,基于以上的信道模型,无人机ui接收到信号源D的信号强度(RSS)可以表示为

Sui,D=Pui,D·Hui,D+σ2

(5)

1.2 标准Q学习算法

Q学习算法[19]是一种机器学习的方法,通过智能体(Agent)与环境反复交互,学习获得一个或一系列较优的行为,这个学习过程是采用马尔可夫决策过程(MDP)形式,通过sense-act-learn循环的方式进行学习,其组元可以表示为{S,A,P(s′|a,s),R(s,a,s′)},其中S表示有限状态空间集;A表示有限动作空间集;P(s′|a,s)表示状态转移概率函数,即智能体在当前状态s时执行动作a,转移到下一个状态s′的概率,其中s,s′∈S,a∈A;R(s,a,s′)表示回报值,即智能体在状态s时执行动作a,状态转移到s′所得到的回报。

在标准的Q学习算法中,智能体从环境中感知得到当前的状态s∈S,基于当前的状态s和过去学习到的经验知识,智能体决定执行某一个动作a∈A,实施该动作之后,智能体依概率P(s′|a,s)转移到下一个状态s′∈S并获得一个回报值R(s,a,s′)。在这个过程中,定义一个Q函数,用于计算某一个状态-动作对(s,a)所获得的期望回报值,Q函数为关于变量(s,a)的函数,其一种常用的更新公式为

Q*(s,a)=Q(s,a)+

式中:λ∈(0,1)为折扣因子。Q函数可以概(6)括为智能体在过去学习到的经验知识,并持续更新。

1.3 状态转移策略

在本文无人机动作选择的问题中,假设无人机所处的状态为s,此时的动作空间为A={a1,a2,…,ak,…,aK},k=1,2,…,K,每一个状态-动作对对应一个Q值,其中一种动作的选择方案为选择最大Q值所对应的动作,即

(7)

式中:as表示在无人机在状态s选择的动作。

(8)

式中:P(ak|s)表示无人机处于状态s时选择动作ak∈A的概率;κB>0为玻尔兹曼常数;T为温度;Z(T)为概率分布的标准化因子:

(9)

根据上述的动作选择概率公式(8),无人机在状态s转移到下一个状态s′的概率可表示为

(10)

假设在状态s执行某个动作ak后,依概率1转移到状态s′(指某个特定的状态),且执行其他动作时,依概率0转移到状态s′,即

(11)

则,状态s到状态s′的转移概率可简化为

P(s′|s)=P(ak|s)

(12)

2 无人机路径规划

2.1 基于接收信号强度的回报函数

在本文研究的无人机搜索目标信号源的过程中,所获得的关于目标信号源的信息只有接收信号强度,可以将该信息作为Q学习过程中的回报值,因为无人机搜索目标信号源的过程,可以理解为缩小无人机与目标信号源之间的距离的过程,而其两者之间的距离越小,则无人机接收到可疑信号的强度就越强,因此可以将回报值定义为

R(s,a,s′)=Sui,D(s′)

(13)

式中:Sui,D(s′)为无人机ui处于状态s′时所获得的目标信号强度。然而,由于相邻的状态之间所接收到的信号强度的差值并不大,单以Sui,D(s′)作为回报值,且依概率选择动作的随机性太强,难以收敛。下面提出一种更优的方案。

通过接收到的信号强度的变化,可以判断无人机的飞行方向是趋向还是背离目标信号源,即由接收信号强度的变化可以获得方向信息。例如,如果无人机ui在状态s获得的信号强度Sui,D(s)小于在下一个状态s′所获得的信号强度Sui,D(s′)(假设无人机ui在状态s实施动作ak后到达状态s′),则说明无人机的飞行方向趋向目标信号源,且如果ΔSss′=Sui,D(s′)-Sui,D(s)越大,说明动作ak方向与目标信号源方向的偏离角越小,故将回报函数定义为

R(s,a,s′)=α[Sui,D(s′)-Sui,D(s)]

(14)

式中:α为信号强度差系数,α越大,信号强度差在回报函数中占得比重就越大。

(四)加强会计信息化建设,会计软件是行政事业单位开展财务管理以及会计工作的重要工具,它的使用极大地提高会计工作的准确性和工作效率,但随着会计制度的改革不断深化,会计软件系统的部分模块功能在实际工作不能满足新的需要,因此现有会计核算软件要根据政府会计制度的设置要求及时地进行系统升级与调试。好的会计软件的使用可以极大地精简财务计算管理工作,也能让行政事业单位的财务状况更加及时规范地体现。会计软件的使用必须符合财政部制定的相关会计信息化工作规范和标准,确保利用现代化信息技术手段开展会计核算及生成的会计信息符合政府会计制度和会计准则。

2.2 导向强化原则

方向信息不仅可以作为回报函数中的一部分,而且可以指导无人机在下一个状态s′的动作(无人机的状态s′由无人机在状态s实施动作ak后到达),因为如果方向ak在状态s时趋向于目标信号源,那么在下一个状态s′时选择动作ak也很可能趋向于目标信号源。在标准Q学习算法的基础上,可以通过方向信息对于无人机动作选择进行优化,称之为具有“导向强化”原则。动作的选择由Q值表决定,方向信息对下一个动作的影响可表示为

Q(s′,ai)=

(15)

式中:ak为无人机ui在状态s时执行的特定动作,ai∈A为无人机ui在状态s′时可选择执行的任意动作;ρ∈[0,1]为折扣因子,控制前一步的方向信息对后一步动作的影响的大小,其值越大,方向的导向性越强。

2.3 导向强化Q学习算法主要步骤

1) 对当前环境进行栅格化,确定起始点坐标和目标点坐标,并以目标点为中心建立信号强度场,作为无人机获取接收信号强度来计算回报值。

2) 初始化状态值,清空Q函数矩阵和回报矩阵,无人机从起始点开始进行探索并获取信号强度。

3) 根据无人机所在状态s位置的Q函数计算各个动作ak的转移概率,并根据概率策略选择动作a。

4) 执行动作a飞行至状态s′位置,并获取新的信号强度。通过回报函数计算出回报值,更新状态s下动作a的Q函数,并根据导向强化以折扣因子ρ来更新状态s′对应的Q函数。

5) 将当前环境位置更新至状态s′位置,并判断是否为目标位置或达到最大迭代次数,如果不是,则结束本次迭代学习过程,迭代次数+1,继续返回到步骤3),否则到步骤6)。

6) 结束该次尝试学习,尝试次数+1,并返回到步骤2),继续进行下一次尝试学习。

7) 最后判断是否到达可接受目标参数,或已经达到设定的最大尝试次数,2个条件中只要有一个满足,则结束整个学习过程。

3 仿真及分析

3.1 实验环境

本节通过仿真实验来验证基于接收信号强度的导向强化Q学习算法的性能。首先将环境栅格化为100×100区域网格,以其左下角为坐标原点,建立一个以水平方向为x轴,竖直方向为y轴的坐标系。标记出起始位置和目标位置,红色星点为起始位置,蓝色星点为目标位置,其中3个圆圈内部表示为无法穿越的障碍物区域,其他区域(在边界内部)为无人机的自由活动区域(如图1 所示)。无人机动作空间集合为所在状态s位置有上、下、左、右4 个动作,即图中蓝色箭头指示;而对于障碍区域则不能进入,即图中红色箭头指示;对角区域考虑到障碍物形状不规则、栅格化不理想等因素,设计为需要经过两步到达(如图2所示)。

图1 栅格化区域模型Fig.1 Grid-based environment model

图2 无人机动作空间模型Fig.2 UAV action space model

3.2 实验分析

在仿真实验中,将通过2组实验分别从基于接收信号强度算法的可行性和导向强化Q学习算法的有效性上进行对比分析。其中,Q学习算法所有学习过程的实验参数及关键参数值如表1所示。

表1 参数设置Table 1 Parameters setting

图3为基于接收信号强度的算法产生的路径轨迹,图4为基于位置距离的算法产生的路径轨迹。图5为多障碍基于接收信号强度的算法产生的路径轨迹。如图3~图5所示,在每次尝试中都会对周围的路径进行探索,并根据回报值调整路径,最终寻得目标点,且基于接收信号的算法在多障碍的情况下也能获得较好的路径。

图3 基于接收信号强度算法的路径轨迹Fig.3 Path planning with received signal strength algorithm

图4 基于位置距离算法的路径轨迹Fig.4 Path planning with location distance algorithm

图5 多障碍基于接收信号强度算法的路径轨迹Fig.5 Path planning in multi-obstacles environment with received signal strength algorithm

如图6所示,基于接收信号强度的算法前期收敛速度较快,在尝试20次左右开始收敛;而基于位置距离的算法在尝试25次左右开始收敛。

图6 两种回报值的收敛过程Fig.6 Convergence process of two reward values

由此可见,前者比后者具有更好的收敛性,其最少迭代步数也几乎是相同的,可以说明以接收信号强度为回报值有较好的规划效果。但在研究背景中并无法预知目标的确切位置,即无人机与目标之间的位置距离并不容易获得,因此基于接收信号强度的路径规划可以发挥很好的作用。

2) 为凸显改进Q学习算法的优势,仿真中与标准Q学习算法、蚁群算法和粒子群算法进行比较。

如图7所示,与其他3种算法相比,导向强化Q学习算法最终规划的路径长度比标准Q学习算法、蚁群算法更优,有较好的优化性能。相对粒子群算法来说,虽然最终规划的路径长度相同,但粒子群算法在50次尝试后才开始收敛,导向强化Q学习算法在10次尝试后就逐步收敛到最优,在算法收敛速度上有绝对优势。

图7 不同算法的收敛过程Fig.7 Convergence process of different algorithms

特别是,标准Q学习算法在尝试20次左右才开始收敛,相比导向强化Q学习算法收敛速度较慢,且最终优化路径长度效果差。由此可见,“导向强化”原则能够有效加快Q学习算法的收敛速度,对无人机路径规划有较好的指导效果。

4 结 论

1) 在目标位置信息未知的情况下,该方法以接收信号强度为回报值,能够迅速准确地规划出飞行路径,与基于位置距离的方法相比,收敛速度更快,表现出了更好的路径规划性能。

2) 与传统算法相比,导向强化Q学习算法在收敛性、时间复杂度和路径规划上优势明显。从而验证了“导向强化”原则,可以加快算法收敛速度,在无人机飞行路径规划中有较好的适用性。

猜你喜欢

信号源信号强度导向
光学相干断层成像不同扫描信号强度对视盘RNFL厚度分析的影响
VR技术在船舶通信系统天线信号源驻波检测中的应用
“偏向”不是好导向
基于需求导向的航天青年成长建议与实践
犬只导向炮
浅析发射机房前段信号源故障
钻铤对随钻电磁波测井信号的影响分析
坚持两个导向 顺势而为谋发展
TETRA数字集群通信系统在露天矿山的应用
一种基于DDS的信号源的设计与实现