基于强化学习的无人机基站多播通信系统的飞行路线在线优化

2022-03-30张广驰严雨琳

电子与信息学报 2022年3期

关键词：路线基站方案

张广驰严雨琳崔苗* 陈伟张景

①(广东工业大学信息工程学院广州 510006)

②(广东省环境地质勘查院广州 510080)

③(中国电子科学研究院北京 100043)

1 引言

无人驾驶飞机(Unmanned Aerial Vehicle, UAV)简称无人机，在近十年内得到巨大的发展，其商业价值预计在2025年飙升到45.8亿美元[1]。无人机自身具有高移动性、机动性、体积小以及成本低等特点，使其在无线通信方面引起了广泛的关注。无人机融入无线通信网络的方式分为以下3类。第一，无人机作为空中基站为无线蜂窝网络补充覆盖和提升容量[2]，或者在发生大范围自然灾害时快速适应环境为地面用户提供应急通信[3]。第二，无人机作为辅助中继改善地面无线设备的连接，极大地扩宽通信范围以及提高通信质量[4]。第三，将无人机接入到物联网中提供可靠和节能的物联网上行通信链路，物联网网络的连通性和能源效率可以显著提高[5]。

本文主要研究上述第1类应用方式，即无人机作为空中基站为地面用户提供无线通信服务。通常地面基站的部署建设是根据长期通信行为来统筹规划的，可能无法满足短时间人群聚集(例如演唱会等)的通信需求和无法适应未来的通信环境变化。相比于传统地面的基站，无人机基站的机动性带来明显的优势，能够灵活便捷地调整位置适应通信需求和为流量热点区域提供额外的网络负载能力[6]。为了充分发挥无人机的机动性潜能，适当的轨迹优化可以减小无人机基站与地面用户之间的距离从而改善信道质量，这对提高通信网络的性能至关重要。文献[7]通过优化无人机的飞行轨迹以及资源分配从而实现高效节能的通信。文献[8]从多无人机的角度出发，考虑了各个无人机与多地面用户之间的干扰，通过优化多无人机的飞行轨迹实现吞吐量最大化。文献[9]研究了在无人机支持的多链路中继系统中，联合优化无人机的3维飞行轨迹和发射功率，抑制链路中的干扰以达到下界吞吐量最大化。以上文献中无人机飞行轨迹优化采用的算法都是属于离线优化算法，即根据通信环境的完美假设，在无人机起飞之前通过复杂的计算、优化设计得到无人机的飞行轨迹，并且起飞之后无法改变飞行轨迹。然而在实际中，通信环境是不断变化的，无法提前预测的，通信环境的完美假设是不切实际的。离线优化算法首先需要建立精确的通信模型，建模之后的参数配置也是难以获取的，即使模型和相关参数是已知的，大多数无线通信的优化问题都是非凸的，通常需要复杂的运算和推导将其转化成凸问题[10]。

为了克服这些局限性，文献[11,12]分别讨论了将强化学习中的算法应用于无人机通信方面的可能性，将无人机的飞行轨迹优化看作路径规划问题，其目标是在随机的飞行环境中最大化特定的累计奖励指标[13]。文献[11]研究了多无人机基站协作通信的场景，以最大化地面用户的通信速率之和为目标，提出了基于强化学习Q-Learning算法的多无人机飞行轨迹优化。文献[12]提出了一种基于体验质量(Quality of Experience, QoE)驱动的多无人机3维部署与飞行轨迹设计新框架。目前已有研究工作开始将强化学习算法应用于解决无人机的飞行路线优化问题，但是关注无人机基站的通信时延和能效问题的研究不多。同时多播通信方式能够在公共安全、应急响应以及智能交通等应用方面减轻无线通信网络的负载和提高通信效率，因此研究无人机基站多播通信系统很有必要[14]。

本文研究了无人机基站多播通信系统中通信时延问题，在该系统中无人机基站向多个地面用户同时发送公共信息，其中每次通信任务中地面用户的位置是随机的。首先建立系统模型，为了保证地面用户能够接收到完整的信息以及减少无人机的能量消耗，以最小化通信任务平均完成时间为目标，对无人机基站飞行路线在线优化问题进行数学描述。然后将问题转化成马尔可夫决策过程，采用强化学习中的Q-Learning算法实现飞行路线在线优化。最后通过仿真验证本文提出的飞行路线在线优化算法的有效性。

2 系统模型

如图1所示，本文考虑一个无人机基站多播通信系统，其中包括一个无人机和K个地面用户1)本文主要研究无人机基站的飞行路线在线优化对多播通信性能的影响，为简单起见，暂时没有考虑无人机基站的能耗问题，考虑能耗的无人机基站飞行路线在线优化将是未来的研究方向之一。另外，本文考虑的系统模型可以扩展到多个无人机协作多播通信的场景。。无人机作为空中通信基站为矩形区域内的K个地面用户提供多播通信服务和发送公共信息。无人机地面用户可表示集合K={1,2,...,K}，地面用户的位置可用2维坐标表示为qk=(xk,yk)。假设无人机的飞行高度固定在Hm，无人机在t时刻的地面投影位置的坐标可表示为q(t)=(x(t),y(t))，无人机在飞行过程的飞行速度固定在Vm/s。本文采用FDMA(Frequency Division Multiple Access)通信方式，无人机基站与地面用户的信道数量为J，即无人机基站可同时向J个地面用户发送公共信息，且无人机基站与各个地面用户的通信链路之间不存在干扰。同时通信的J个地面用户可用集合表示为J={1,2,...,J},J ∈K，其位置坐标为qj=(xj,yj),j ∈J。因此无人机基站与地面用户j的距离可表示为

图1 无人机基站多播通信系统

3 飞行路线在线优化算法

3.1 问题描述

为了保证地面用户能够接收到完整的文件信息以及考虑到无人机的能量有限性，本文以最小化无人机基站完成通信任务的平均时间为目标。无人机每次通信任务中所服务的地面用户是随机的，因此在线优化无人机的飞行路线很有必要。本文主要考察飞行路线对通信性能的影响，因此暂时不考虑无人机基站的能耗，假设飞行时间足够长。无人机基站在第m次通信任务中需同时给J个地面用户传输文件信息，且与每个地面用户传输文件信息量为Lbit。当无人机基站完成第m次通信任务中所有地面用户所需的信息量之后，才能开始进行第m+1次通信任务，为另外J个地面用户发送公共文件信息。换句话说，无人机基站同时与J个地面用户通信，其中通信时延最大的地面用户的通信任务完成时，其他的地面用户的通信任务已完成。将无人机基站完成第m次通信任务的时间表示为Tm=max{Tm,1,Tm,2,...,Tm,j}，Tm,j表示无人机基站第m次通信任务中与第j个地面用户的通信时延。无人机基站在第m次通信任务中与第j个地面用户的通信速率可用Rm,j表示，在第m次通信任务中，无人机基站需与每个地面用户传输Lbit信息量可表示为

3.2 强化学习概述

强化学习具有高效的自我学习能力，可用于解决无人机通信网络中的优化问题。因此本文将采用强化学习中的算法对无人机基站的飞行路线进行在线优化，接下来将介绍强化学习的理论知识。强化学习以交互目标为导向，将智能体置身于环境中并与其进行交互，在此情境中，给智能体所选择的动作赋予奖赏，以智能体在交互过程中所得到的累计奖赏最大化为目标从而指导其行为[16]。强化学习中的大多数问题都可以转化成马尔可夫决策过程(Markov Decision Process, MDP)，因此马尔可夫决策过程是强化学习的基础理论。MDP的基本框架为(S,A,R)，每个离散时刻t可以观察到智能体的状态为St ∈S，然后在此状态上选择并执行一个动作At ∈A(s)。环境会对智能体所选择的动作进行

式(11)—式(15)为问题P1的离散形式。问题P2所对应的MDP的描述如下：

3.3 基于Q-Learning的飞行路线在线优化算法

本文所提出的无人机飞行路线在线优化问题中，无人机的每个动作不仅影响当前的性能，还会对接下来的状态产生影响。因此本文采用强化学习中的Q-Learning算法对问题进行求解。Q-Learning是一种典型的强化学习中离轨策略下的时序差分算法，可以在每个动作结束之后估计动作价值函数并更新改进策略。Q-Learning中采取的动作策略为ε- greedy策略，是对贪婪策略的改进。ε- greedy策略具有ε的概率探索环境寻找更优的策略，1-ε的概率按照贪婪思想选择动作价值函数最大的动作。动作价值函数定义为：Q(sn,an)=Q(sn,an)+α[rn+1+γmaxaQ(sn+1,a)-Q(sn,an)]。基于QLearning的在线优化算法具体如下：

4 仿真结果

在本部分中，利用仿真平台对所提出的飞行路线在线优化算法进行验证，将基于Q-Learning算法的在线优化算法表示为Scheme A，并与另外3种方案进行对比。

Scheme B：无人机基站总是向着当前J个地面用户中通信传输速率最大的地面用户的方向飞行。无人机基站完成了该地面用户的文件信息传输之后，在当前位置再向着通信传输速率第二大的地面用户飞行。依次类推，直到完成所有地面用户的文件信息传输。

Scheme C：与Scheme B相反，无人机基站向着当前J个地面用户中通信传输速率最小的地面用户的方向飞行。无人机基站完成了该地面用户的文件信息传输之后，从当前位置向着通信传输速率第二小的地面用户飞行。依次类推，直到完成所有地面用户的文件信息传输。

Scheme D：在接收到J个地面用户的通信请求之后，无人机基站在每个状态位置上，贪婪地向通信传输速率最小的地面用户飞行，直到完成所有地面用户的文件信息传输。

无人机基站多播通信系统仿真参数设置如下：无人机基站可飞行的矩形范围为400m×400 m，地面用户随机分布在此范围内。矩形范围对应的位置坐标为[Xmin,Xmax]×[Ymin,Ymax] = [0,400]×[0,400]，将矩形范围分割成I×I= 2500个状态。无人机的飞行高度H=100 m，最大飞行速度Vmax=20 m/s。无人机基站与地面用户的子信道数量J= 3，其子信道的带宽B=1 MHz，地面用户的通信请求信息量L=107bit，参考距离1 m的信噪比γdB=40 dB。假设无人机基站的通信任务次数M=100，其他参数：Nepi= 7×105,Nstep= 120,α= 0.8,γ= 0.5,Nε= 0.9999。

图2展示了无人机基站两次完成通信任务的训练过程，其中完成通信任务的时间随着训练次数增大而变化。在这两次训练过程中，完成通信任务中的服务对象是不同的地面用户，其位置是随机的。与其他的方案对比，基于Q-Learning算法的在线优化算法能够有效地收敛，并且收敛之后完成通信任务的时间更小。整体来看，随着训练幕数的增加，无人机基站完成通信任务的时间越小；在训练前期可以看到无人机基站完成通信任务的时间大范围震荡，这是因为前期的探索参数ε较大，具有更大的概率探索新的动作；在训练后期，完成通信任务的时间趋向稳定，这是因为探索参数ε较小且已找到最优的飞行路线。

图2 基于Q-Learning算法的在线优化设计算法的训练过程

图3和图4展示了基于Q-Learning算法的在线优化设计算法与其他3种方案的无人机基站飞行路线对比图，飞行路线所需的时间与图2中完成两次通信任务时间相对应。图3中图例“Scheme A：n”表示Scheme A方案下无人机基站第n次完成通信任务的飞行路线，“Scheme B：n”等图例与“Scheme A：n”类似。图4是在图3的基础上完成的，其中“Scheme A：n+1”表示Scheme A方案下无人机基站第n+1次完成通信任务的飞行路线。可以看出基于Q-Learning算法的在线优化设计算法比其他方案更加集中于3 个地面用户的中央。Scheme A和Scheme D的飞行路线类似，但是对比图2中Scheme A与Scheme D的两次完成通信任务的时间，可以看出Scheme A比Scheme D的完成通信任务的时间更短，因此Scheme A的飞行路线更佳。

图3 不同方案下的无人机基站飞行路线对比图

图4 不同方案下的无人机基站飞行路线对比图

图5展示了无人机基站采用不同方案、完成不同通信信息量任务的平均时间对比图，其中完成通信任务的次数为100次。为了更好地对比效果，图5中无人机在不同方案中是完成相同的多个地面用户的通信任务，这是因为不同的地面用户位置可能导致通信任务的完成时间不同。可以看出本文提出的Scheme A方案始终优于其他3种方案，通信任务的信息量越大，Scheme A方案的性能越好。

图5 不同方案下的无人机基站完成不同信息量的多播任务时的平均时间对比图

图6展示了不同方案下的无人机基站完成100个地面用户的通信任务的平均时间，其中每次通信任务的3个地面用户是随机的，对应的通信任务的信息量为L=107bit。可以看出SchemeA方案下完成通信任务的时间明显比其他3种方案的更小。因为每次通信的地面用户是随机的，由此可以说明Scheme A方案可适应动态的、随机的地面用户的通信请求。

图6 不同方案下的无人机基站完成100次通信任务的平均时间

5 结束语

本文针对于无人机基站多播通信系统，为了保证地面用户能够接收到完整的信息以及减少无人机的能量消耗，以最小化完成多播通信任务的时间为目标，提出了基于Q-Learning的无人机飞行路线在线优化算法。仿真结果显示了与其他几种方案对比，所提出的算法能够有效实现无人机基站的飞行路线在线优化。本文的研究证实了强化学习能有效解决无人机基站飞行路线的在线优化问题，加深了我们对在线优化研究的认识。在未来的研究中，有待于将本文考虑的单无人机系统扩展到多个无人机协作多播通信的场景，并将无人机的飞行能耗纳入优化的考虑因素。