基于自适应动态规划的航空航天飞行器鲁棒控制研究综述*

2019-11-30穆朝絮孙长银

空间控制技术与应用 2019年4期

穆朝絮，张勇，余瑶，孙长银

0 引言

近年来，航空航天飞行器由于其重要的战略意义与经济价值，逐渐受到社会各界的广泛关注. 随着材料科学、控制理论、特种发动机技术、通讯传感等技术的提高，航空航天飞行器的相关研究也逐步从理论探索向实际应用迈步. 各种航空飞行器，如大型的气球、飞艇、飞机、巡航导弹，小型的旋翼飞行器、扑翼飞行器，以及航天飞行器中的高超声速飞行器、弹道导弹、卫星、航天飞船、火箭等. 它们依靠空气浮力或空气相对运动产生动力实现升空飞行. 随着航空航天技术的飞速发展，航空航天飞行器在侦查敌情、远程打击、情报收集、抗险救灾等方面都拥有其独特的优势，在民用、军事、科学研究等方面拥有广阔的应用发展前景.

航空飞行器工作环境分布于大气层的各个分层中，小型旋翼飞行器工作环境一般位于对流层，民用或军用飞机一般位于平流层. 对于近空间高超声速飞行器则主要飞行于平流层、中间层与部分电离层[1]. 当飞行器的飞行高度超出大气层后，可将其列为航天飞行器行列，因此，也可将高超声速飞行器称作空天飞行器. 航空航天飞行器飞行环境的不同导致了它们面临不同的环境干扰，位于较低层的飞行器往往受风速、温度、湿度、气压等天气因素影响较多. 而对于飞行环境跨度较大的近空间飞行器如高超声速巡航导弹和高超声速飞机，则主要受其高动态、强耦合、快时变、模型不确定等问题影响而难于控制，且由于近空间环境中大气密度较小，环境温度变化复杂，导致传统的航空航天飞行器控制技术不能有效适用，需要在特定空域下进行飞行器技术的研究和探索[2-4].

航空航天飞行器系统往往具有动力学特性复杂，飞行环境多不确定性，控制精度要求较高的特点. 在保证航空航天飞行器控制系统具有较强的鲁棒性能的同时，又对灵活性和自适应性有较高的需求，于是，传统控制方法已经难以满足诸多复杂的控制要求，迫切需要研究先进的鲁棒控制方法以解决当前问题.近年来，随着智能控制与现代控制理论的飞速发展，滑模变结构控制、自适应控制、鲁棒控制、最优控制等控制方法开始用于航空航天飞行器控制系统设计[5-7]. 近年来，大数据、机器学习等技术的兴起也掀起了一股人工智能的浪潮. 强化学习作为一种新兴的基于数据学习的人工智能算法，逐渐受到了科研人员的重视.

强化学习思想最初是为了求解动态规划(dynamic programming, DP)问题[8-9]，其基本原理是通过设计增强学习机制，不断奖励并强化符合设定指标的策略行为，从而获得近似最优的性能指标和控制策略[10-13].对于线性系统，动态规划方法可以通过求解代数黎卡提方程得到最优控制问题的状态反馈控制器. 如果是非线性系统或代价/目标函数为非标准的状态和控制变量组成的二次型形式，则需要求解非线性偏微分哈密尔顿-雅克比-贝尔曼(Hamilton-Jacobi-Bellman,HJB)方程得到最优控制策略，然而这往往难以直接实现. 随着系统维数增大，动态规划方法可能面临“维数灾难”的问题而无法应用于实际.在此背景下，自适应动态规划 (Adaptive Dynamic Programming, ADP)应运而生[14-16].

在强化学习中，普遍采用神经网络近似性能指标函数及策略，呈现出多个神经网络有机融合的结构，表现出强大的学习能力，因而得到了迅速发展和推广，衍生出一系列实现结构，如近似动态规划(Approximate Dynamic Programming)，自适应评价设计(Adaptive Critic Design)或神经动态规划(Neuro-Dynamic Programming)等，引起了学术界的广泛关注[17-26]. ADP是一种基于强化学习理论的先进智能控制方法，基于神经网络的函数泛化能力，通过近似求解非线性HJB方程，避免了维数灾难问题. ADP方法拥有应用范围广，自适应性自调节能力强，鲁棒性能优秀等特点. 由于ADP具有的自适应能力，一些基于ADP方法的鲁棒控制策略也被先后提出，并用于非线性系统鲁棒控制问题研究[27-35]. ADP方法从初始阶段的基本结构和算法设计，到中期的方法扩展和理论完善，目前已经发展到相关成果在非线性动态不确定系统中的扩展应用阶段. 当涉及具体应用场景时，则需要解决现实系统中的动态不确定问题，即鲁棒控制问题.其中，航空航天飞行器系统作为典型的高维非线性系统，面临的复杂扰动与不确定问题也成为了该领域研究中的难点和热点. 对于航空航天飞行系统中存在的不确定性、扰动的问题：一些研究在设计性能指标函数时会将不确定扰动对系统动态响应的影响考虑其中，进而通过稳定性分析保证控制策略对于闭环不确定系统的鲁棒稳定性.对于模型部分或完全未知的场景：基于数据学习的思想为模型不确定问题提供了一条新的求解思路. 可以通过引入神经网络、蒙特卡洛抽样等技术来近似系统动态响应，实现对于控制、状态等信息流的映射与学习，进而放松对于精确系统模型的要求，而神经网络在其间往往被应用于海量系统数据的处理. 相比其他传统鲁棒控制方法，ADP方法在保留了动态规划方法最优属性的同时，通过结合强化学习理论以及数据驱动思想，实现了对于动态不确定、模型未知等问题的处理.

ADP方法通过动态调整控制器参数以适应被控对象的动态特性的变化及所在环境的不确定性.从该角度出发，ADP控制与鲁棒控制具有相似的被控对象.不同的是，鲁棒控制设计过程中，往往需要通过稳定性分析，进一步考虑在某些特定界限下达到控制目标所留有的自由度，即满足一定的鲁棒性能指标.可以说，ADP方法在鲁棒控制问题中的应用，是ADP方法对于实际系统动态不确定与扰动问题的进一步考虑，即加深了ADP方法的理论研究深度，为ADP理论成果可以有效应用于现实不确定系统奠定了基础，又丰富了鲁棒控制理论研究成果，为鲁棒控制问题的求解的扩宽了解决思路.本文将以此为前提，针对基于自适应动态规划的航空航天飞行器鲁棒控制问题研究与未来发展前景进行介绍与分析.

1 ADP基本结构框架分析

1.1 ADP理论框架发展历程

ADP方法利用强化学习机制获得近似最优的代价函数和控制策略，实现最优控制问题的前向求解. ADP方法通过函数近似结构来估计动态规划中的代价函数和控制策略，主要包括三个核心框架部分：动态系统、行为网络和评价网络. 动态系统即被控系统，包含系统运行的动态特征；评价网络近似最优代价函数，行为网络近似最优控制策略.除此之外，一些典型结构中也包含模型网络，用于应对动态系统未知或部分未知时估计系统状态输出信号. 评价网络和行为网络的相互作用相当于一个智能体在外界奖励/惩罚作用下的强化学习过程. 动态系统收到当前控制信号后，通过自身对控制信号的响应产生奖励/惩罚信号，来影响代价函数输出，最终影响行为网络控制策略的产生.

WERBOS等[36]基于强化学习框架，给出了自适应动态规划方法的几种典型结构. WERBOS在文献中给出了启发式动态规划(heuristic dynamic programming，HDP)和二次启发式动态规划(dual heuristic dynamic programming，DHP)的基本结构框架用以实现ADP控制思想. HDP结构应用较为广泛，典型结构中包括行为网络、评价网络以及模型网络. 行为网络基于系统动态和代价函数来输出控制策略，评价网络用于估计代价函数，模型网络则用于系统动态估计. 不同于HDP，DHP中评价网络用于估计代价函数的梯度，而不再是估计代价函数. 文献[37]中，基于HDP和DHP结构，两种改进结构控制依赖启发式动态规划(action dependent HDP，ADHDP)和控制依赖二次启发式规划(action dependent DHP，ADDHP)相继被提出. 在原有结构基础上，这两种控制依赖型框架中评价网络的输入包含系统动态以及系统的控制输入信息. Prokhorov等提出全局二次启发式规划(globalized DHP，GDHP)和控制依赖全局二次启发式规划(action dependent globalized DHP，ADGDHP)结构[38-39]. GDHP中评价网络用于估计系统的代价函数及其梯度. ADGDHP则在GDHP的基础上，使评价网络的输入包含系统动态和系统控制输入信息. 在上述结构基础上，HE[25]等考虑了奖励/惩罚信号的自适应调节，提出了目标导向型自适应动态规划 (goal representation adaptive dynamic programming，GrADP)实现结构.

综合以上ADP结构的扩展方式和设计思路，其主要体现于：1) 评价网络的输入信息；2) 评价网络的输出信息；3) 评价、行为、模型等网络结构的应用数量以及网络拓扑分布.

评价网络输入、输出信息的丰富程度体现了对于系统动态信息的获取需求，为评价网络近似系统代价函数提供了数据支持. 但是，过大的信息流也会导致计算效率的降低以及计算资源的浪费. 同时，一些无效数据的输入也会阻碍评价网络学习过程的推进. 因此，合理设计神经网络结构，也是ADP算法有效实现的保证. 行为网络输入信息一般包括系统动态信息，通过系统动态信息的提取以及评价网络的调节，最终为被控系统提供近似最优控制策略. 因此，如何处理并提取有效输入状态信息是设计中的一个关键. 具体到算法实现，神经网络的权值更新规则一定程度上决定了算法的收敛性能. 如何在保证提出方法稳定性的基础上，提升算法收敛的快速性、准确性以及训练结果的最优性，是ADP方法设计过程中的重点和难点. 除以上关键问题外，评价、行为、模型网络的拓扑结构复杂程度，神经网络的深度、宽度，各网络的应用数量等问题，均会影响ADP方法实现上的难易程度以及实际应用的控制效果.

此外，鲁棒控制问题中代价函数的设计也是一个重要环节，如何充分考虑不确定系统中的各种干扰和不确定性并合理设计系统代价函数是ADP方法取得较好控制效果的基础，这有益于提高ADP方法的鲁棒控制精度、计算效率以及稳定性. 不同的ADP结构均有各自的特点，他们在计算速度和计算精度上有所不同，用以应对不同响应特性的系统以及不同的控制需求. 近年来，随着ADP方法的逐渐成熟，基于以上各种框架的研究也被不断扩展.

1.2 迭代ADP算法实现

ADP方法在实现过程中一般应用函数近似技术，通过神经网络来近似代价函数、最优控制策略、系统动态响应等，从而近似求解系统最优控制问题. 通过神经网络(评价网络)近似估计代价函数或代价函数梯度，避免了直接求解非线性偏微分HJB方程来得到系统代价函数. 进而最优控制策略也可以基于神经网络(行为网络)近似得到. 特别的，针对动态模型信息已知的系统，可以应用单网络自适应评价方法[40]，模型网络与行为网络进行删减，结合最优控制策略的具体解析表达与评价网络输出，得到近似最优控制策略.

ADP算法实现主要是通过设计迭代算法来实现. 从目前ADP的发展来看，迭代ADP算法主要分为策略迭代算法与值迭代算法[7,16]. 策略迭代与值迭代都属于“强化学习”里策略求解中的动态规划方法，两者最明显的区别体现在算法迭代的起始条件以及迭代循环条件.

策略迭代主要包括策略评估(Policy evaluation)与策略提高(Policy improvement)两个过程[11]. 强化学习策略迭代算法从一个初始化控制策略集开始，基于值函数对当前控制动作进行评估，从中选取值函数收敛且满足值函数差分最大/最小的策略，并进入下一阶段，利用值函数信息实现策略提高. 计算采取下一动作后，得到下一状态的值函数为最大/最小，则选取该策略并返回“策略评估”过程，直到得到最优值函数与最优控制动作. 具体的，迭代ADP算法中，往往对应一个具体被控对象，因此，往往需要一个“初始稳定的控制策略”保证算法的顺利进行. 在策略提高过程中，迭代ADP算法往往设计具体权值更新规则完成神经网络更新，即对应策略提高过程.

值迭代算法中，通过计算不同控制动作下的期望值函数，根据需求，选取最大/最小的期望值函数作为当前值函数，并用于更新控制策略. 通过循环此步骤直到值函数收敛到最优值，进而得到最优控制动作[11]. 在迭代ADP算法中，两种迭代算法除了初始稳定控制策略要求的不同，策略迭代是计算确定策略下的值函数，据此修改控制策略，在迭代过程中不断优化. 值迭代算法则是根据期望值函数来更新迭代，且最后输出确定的最优控制策略，保证了最优性. 同时，两种算法也各有其不足，策略迭代每次循环迭代次数更少，但收敛速度较慢，整体需要迭代的次数较多，使得计算量较大. 值迭代由于其遍历特性，当系统状态空间较大时，有限步骤内往往不能得到满意的值函数和控制策略[41].

ADP算法从应用方式上主要分为离线算法与在线算法. 相比于在线迭代算法，离线迭代算法更为保守，当系统模型动态发生变化或参数不确定性影响较大时，可能导致原离线近似最优策略控制效果降低，需要对ADP控制器重新进行离线训练，增加了系统运行维护成本. 在线迭代算法可以解决模型不确定这一问题，通过在线训练神经网络，可以使控制策略自适应调节，适应系统模型变化带来的影响. 但是，在线算法往往需要占用更多系统资源，并且在算法学习之初可能导致系统出现较大振荡. 同时，当系统存在较多干扰时，可能导致网络权值不断调整，无效信息的引入也将影响算法收敛结果的最优性，而离线算法中则不存在这样的问题. 不可否认的是，在线ADP算法拥有广阔的发展前景. 从科学研究到现代工业生产，各种微米级、纳米级技术的发展需求也越来越高，人们不断追求精度更高鲁棒性更强的控制策略. 因此，设计一种即拥有在线算法的自适应性，也保持离线算法的抗干扰能力的ADP算法具有非常重要的理论与现实意义.

2 基于ADP的航空航天飞行器鲁棒控制问题研究

航空航天飞行器往往工作于复杂多变的飞行环境，这为系统稳定控制带来了一定的不确定性.同时，复杂的系统动力学特性，如非线性、强耦合、挠性不确定等问题对控制策略的设计提出了更高的要求. 结合神经网络强大的泛化能力与强化学习的自学习能力，近年来出现了一批基于ADP方法的航空航天飞行器鲁棒控制问题的研究. 值得注意的是，不同种类航空航天飞行器除了系统模型动态特性存在巨大差异外，所处的飞行环境与控制问题侧重点也各不相同. 因此，考虑三种典型场景，对ADP方法在高超声速飞行器系统，导航制导系统以及无人机系统的鲁棒控制问题分别展开分析与讨论.

2.1 高超声速飞行器系统

“近空间”是指距离地面20千米至100千米的空域，该空域处于飞机等航空器的最高飞行高度和卫星飞船等航天器的最低轨道高度之间，也称为亚轨道或空天过渡区. 高超声速飞行器正是飞行在近空间飞行速度不小于5马赫(Mach)的一种飞行器[2,42]. 高超声速飞行器控制发展过程中，一些基于传统非线性控制方法的研究不断被提出[42-45]. 然而，高超声速飞行器具有的强非线性、强耦合、模型不确定性和干扰、姿态约束、参数时变和挠性特性等特点为控制策略的选取带来了极大的挑战.

目前，ADP方法在高超声速飞行器等空天飞行器的应用大多是针对环境扰动和参数不确定问题进行深入讨论研究.文献[46]中重点考虑了高超声速飞行器环境干扰和参数不确定问题，设计滑模控制器来保证系统整体稳定性，同时提出一种基于数据的ADHDP辅助控制器，用于在线自适应补偿干扰和不确定引起的系统振荡.文献[47]提出一种直接启发式动态规划策略，嵌入模糊神经网络以提高算法自学习能力和鲁棒性能，用于处理高超声速飞行器姿态角度跟踪过程中存在的有界参数不确定问题. 文献[48]针对推进系统和机身模型间的耦合问题，提出一种基于在线同步策略迭代算法的H∞鲁棒控制策略.文献[49]考虑变结构近空间飞行器系统的参数不确定性和外界扰动问题，提出一种基于降阶观测器技术与自适应动态规划方法的开关自适应主动抗干扰控制技术. 文献[50]提出一种基于径向基神经网络实现的自适应动态神经模糊控制方法，仿真表明提出策略对于模型参数变化有较强的容错性能. 此外，一些基于神经网络观测器/神经网络近似技术补偿高超声速飞行器不确定动态，进而设计自适应鲁棒控制器的研究，也表现出了不错的控制效果[51-52].

2.2 导航制导系统

一般来说，导航制导系统的控制问题更多指向导弹这种特殊飞行器. 导弹因为其精确打击能力与超强的破坏力成为很多军事大国在武器装备战略转型上的优选目标[7]. 基于ADP框架下的导航制导控制策略能够根据导弹跟踪目标的动态变化，针对不同突发状况，自适应的进行在线调整并更新末端制导率，从而实现智能追踪、精确打击的目的. 结合强化学习与非线性动态规划理论，ADP框架下导航制导系统的相关研究为未来智能导航系统的发展奠定了理论基础.

相比于其他应用场景，ADP方法在导航制导领域的研究刚刚起步，主要用于最优制导律的设计问题，以下主要对现有的一些研究成果进行分析. 文献[53]针对多变量扰动下的飞行器垂直起降系统制导控制问题，基于稀疏核理论，设计一种基于核的在线DHP鲁棒控制策略设计. 文献[54]中主要针对行星着陆任务中制导算法进行研究，设计了一种终端多面滑模制导律，并基于强化学习原理，对制导律增益进行在线自适应调整，取得了不错的仿真效果.文献[55]基于自适应动态规划框架，自适应调节关联搜索单元参数、自适应评价单元参数以及模糊规则函数的中心参数和宽度参数，提出一种基于自适应评价方法的自动驾驶仪用于导弹倾斜转弯控制问题. 文献[56]基于自适应评价结构，提出一种最优制导律设计方法. 文献[57]与[58]分别考虑导弹制导中状态约束和输入约束问题，设计了基于自适应评价网络的制导律，实现了最小时间内从初始飞行马赫数到目标马赫数的控制. 针对空间目标精确打击的研究，一些基于强化学习理论的方法被提出，实现了导弹追击、空间对战等问题的躲避控制[59-60].

2.3 无人机系统

随着电子、通信技术的逐渐成熟，出现了各种民用与军用无人机，具体科学研究也取得了不错的进展，其中，尤以微小型无人机的研究成果最为丰富[61-63]. 目前为止，对于微小型无人机，国际上较为认可的一种说法是将其分为旋翼式、固定翼和扑翼式无人机. 对于前两种无人机的研究成果较多，拥有更多的实际应用场景，并且这两种无人机的表现也较为符合人们的期望.

微型扑翼式无人机主要结合空气动力学和仿生学理论来进行结构设计，其体积相较于旋翼式更小，在军事侦察中拥有其重要的战略地位，但目前关于扑翼式无人机的研究还处于理论与试验阶段，与ADP方法结合的研究较少[64-67]. 文献[65]针对蜂鸟扑翼微型无人机设计了一种基于扰动观测器的神经网络输出反馈和状态反馈控制器，通过稳定性和仿真分析，表明在合适的控制参数下，系统状态可以收敛到稳定点附近邻域内. 文献[66]针对扑翼微型无人机准稳态模型设计了基于强化学习的控制算法，并进行了仿真验证，进一步，文献[67]基于该算法应用果蝇动态模型在真实环境下进行了实验验证.

固定翼、旋翼无人机系统往往是耦合非线性系统，并且由于飞行速度较慢，容易受到外界环境因素影响. 对此，ADP等基于强化学习的控制框架凭借其自适应性能得到了广泛关注[68-73]. 文献[69]考虑风力扰动与空气阻尼参数不确定下四旋翼无人机鲁棒控制问题，通过模型等价变换定义系统耦合不确定性，以单网络自适应评价结构为基础，设计了一种基于学习的自适应鲁棒控制策略，并通过对比实验验证了方法的有效性. 针对两自由度旋翼无人机模型不确定性问题，文献[70]提出了一种基于数据采样ADP方法的输出反馈控制器，并通过仿真实验验证其可行性. 文献[71]针对四旋翼无人机中模型不确定与干扰问题提出一种改进的在线自适应评价结构，分别对各子系统进行控制器设计，实现了较好的控制效果. 文献[72]研究小型固定翼无人机在随机环境干扰下集群控制问题，设计基于Q学习的集群控制策略并与Quintero动态规划方法进行对比，结果表明提出的方法对于环境扰动有更好的适应性. 文献[73]设计一种基于多步策略评估的Q学习方法用于两自由度直升机模型控制问题，该策略是基于数据实现并且无需精确系统模型. 文献[74]以强化学习理论为基础，设计自适应评价增补控制器用于四旋翼无人机控制问题，并基于Q学习、时序差分以及经验回归技术提高训练速度与稳定性.

以上为ADP方法及相关强化学习技术在航空航天飞行器鲁棒控制问题的应用介绍. 目前，相关研究已经逐渐步入正轨并且得到了科研、技术人员的重点关注.由于ADP等方法在该领域研究普遍尚未成熟与完善，目前仍然是研究中的热点与难点，具有广阔的发展前景空间.

3 ADP方法未来研究展望

当前ADP方法理论研究成果已经比较丰富，具体涉及了ADP结构改进与算法扩展研究，算法结构、更新迭代方式、计算效率等研究，对于系统约束、不确定性等问题的研究，针对复杂系统的应用等等.但ADP方法在航空航天飞行器应用的相关理论研究仍然有待深入完善，以下给出几种未来可能的发展方向：

1)考虑航空航天飞行器状态、控制约束问题. 目前，即使在ADP方法理论研究方面，关于状态、控制约束问题的研究仍不完善，在航空航天领域中的研究成果也是更为少见，有待深入研究.

2)考虑系统模型挠性特性问题. 对于高超声速飞行器、导弹等速度较高的飞行器系统，挠性非线性特性对系统动态响应的影响往往不容忽视，但是专门针对该问题的研究仍然较少.

3)效率提高. 考虑航空航天飞行器高动态特性，往往需要控制器对系统状态的快速响应. 然而，设计基于强化学习的方法往往需要较长的训练时间来优化输出，这就体现了提高算法迭代效率的重要性.

4)提高算法鲁棒性能. 当前航空航天飞行器往往是维数高，耦合性强的非线性系统，受飞行环境的影响，模型本身也会存在不确定. 当出现较大扰动或不确定问题时，单纯的ADP控制效果仍不理想，这一问题仍然有待解决.

5)考虑系统时滞问题. 受制于通信、传感等技术，系统时滞问题也逐渐受到研究人员的关注，尤其对于航空航天飞行器这类复杂系统，时滞特性对于系统稳定性、算法有效性等方面的研究仍然较少.

4 结论

各种航空航天飞行器系统是当前非线性控制领域研究的一个热点. 航空航天飞行器系统往往具有复杂的系统特性与多变的飞行环境，这也为其鲁棒控制问题的解决带来极大的挑战.而ADP方法结合了强化学习的自学习特性与动态规划的最优特性，凭借其优秀的自适应自调节性能，可应用于非线性系统鲁棒控制问题. 本文首先针对ADP方法的基本框架与算法实现方面进行了结构介绍与机理分析. 进一步，对ADP方法在高超声速飞行器系统，导航制导系统以及无人机系统的鲁棒控制问题研究展开综述，同时包含一些强化学习技术，如Q学习方法在该领域的应用研究等.

ADP方法在航空航天飞行器鲁棒控制问题的研究仍有待深入，具体算法、技术细节仍需改进，迫切需要相关科研、技术人员积极参与到具体研究中，促进我国航空航天事业的发展.