高超声速飞行器滑模控制参数整定方法设计*

2022-03-20程志浩汤国建

飞控与探测 2022年6期

程志浩，王鹏，汤国建

(国防科技大学空天科学学院空天工程系·长沙·100854)

0 引言

高超声速飞行器[1]一般是指飞行速度大于马赫数5的飞行器，其大空域、宽速域的机动特性对控制器性能提出了很高的要求。滑模变结构控制具有鲁棒性强、响应快、物理实现简单的特点[2]，被广泛应用于飞行控制系统的设计中。在实际的飞行任务中，一套固定的控制参数往往无法满足整个飞行过程的需求。通常情况下,控制参数需要人工根据经验手动调试，过程十分繁琐，调试得到的控制参数品质不高，也只针对于当前工况。因此,研究一种控制参数整定方法，使得飞行器能够根据变化的气动环境快速在线修正控制参数是十分有意义的。

近年来，遗传算法、模拟退火算法、粒子群算法[3-7]等智能算法飞速发展，被广泛用于解决控制参数整定问题。这类方法的整定效果尚可，但算力需求大，求解速度一般。强化学习是近年来的研究热点，一些专家学者也将其应用于控制参数整定问题中。文献[8]提出了一种基于Actor-Critic 结构的策略，以解决PID参数整定问题，但Actor网络对应3个PID控制参数,各自的梯度不好给出，最后解得的3个控制参数存在耦合。文献[9]沿用了文献[8]中的方法，针对单个控制参数的滑模控制器进行参数整定，取得了比较好的效果。文献[10]采用强化学习思想，实现了飞行器俯仰姿态PID控制参数的自主调度，但存在超调量过大的问题。文献[11]引入连续动作学习自动机(Continuous Action Reinforcement Learning Automata，CARLA)算法，对自抗扰控制参数整定进行了一定的探索，但由于待求解量过多，惩罚函数设计不甚合理，导致算法收敛速度慢。总的来说,当前的控制参数整定方法研究已经取得了一些成果，但主要面向PID控制参数的整定，对其他控制方法的控制参数整定涉及较少，且整定速度一般，不能很好地满足高超声速飞行器控制参数整定的快速性。为了解决这一问题，本文改进了基于强化学习思想的CARLA算法[12]，将其应用于高超声速飞行器滑模姿态控制器的控制参数整定问题中，并与遗传算法和模拟退火算法进行对比，以体现该方法的优势。

1 飞行器运动模型与滑模控制器设计

本文采用文献[13]中建立的高超声速飞行器气动模型为研究对象。为了简化起见，忽略地球自转，采用如下的纵向飞行器运动模型

(1)

式中，D为阻力；L为升力；g为重力加速度；m为飞行器质量；v为飞行器速度；h为飞行器高度；x为飞行距离；Re为地球半径；ωz为飞行器俯仰角速度；Mz为控制力矩；Iz为飞行器Z轴转动惯量；φ为俯仰角；α为攻角；θ为速度倾角。

(2)

其中

eφ=φ-φc

(3)

对滑模函数求导可得

(4)

俯仰角的二阶导数可表示为

(5)

选用指数趋近律[14]作为趋近方式，这样滑模函数的一阶导数可以改写成

(6)

其中，εφ、kφ为滑模控制参数，符号为正，可根据实际控制需要选取;sgn(·)为符号函数，将式(6)代入式(5)中，得到基于指数趋近律的滑模控制律为

(7)

当系统状态点穿越滑模面时，由于式(7)中符号函数的存在，会导致控制量发生较大幅度的抖动，这一现象会严重影响控制系统的控制性能。为了尽可能地减少抖振带来的影响，采用连续化的方法，以饱和函数sat(s)代替符号函数

(8)

滑模控制律变为

(9)

(10)

2 CARLA算法的改进

控制参数整定可以归结为一种优化问题。学习自动机(Learning Automata，LA)是求解随机优化问题的有效工具，它通过与环境的互动实现对概率分布的学习。CARLA算法是LA的一种，采用一种非参数化的概率模型，选取有限区间作为动作集，通过一个对称的、高斯型的邻近函数，将表现好的动作的奖赏传播给其相邻的动作[15]。由于CARLA算法本质上是一种基于概率的更新的算法，不可避免地存在一定方差，且多数情况下找到的为次优解并非最优解。但控制参数整定问题区别于一般的优化问题，有以下特点：1)控制参数不需要严格最优，满足一定的指标能够使控制器有较好的控制性能即可；2)控制参数的小范围浮动对控制性能影响十分有限，对求解精度的要求可适当放宽；3)假设最优控制参数为a，那么实际选取的控制参数在靠近a的过程中，系统对应的控制性能也会提高。这3个特点使得该算法十分适用于控制参数整定问题。

引入CARLA算法的思想整定控制参数，总体思路为：将控制器和控制对象组成的系统当成环境，系统在不同控制参数下的控制性能反映了这组参数的品质，对于品质良好的控制参数，增大其出现的概率，反之减少。控制参数的概率分布在区间内不断学习更新，最终会以高品质的控制参数为中心收敛，概率密度最大值对应的控制参数即为性能优越的控制参数。

文献[11]采用CARLA算法解决自抗扰控制参数的整定问题，取得了一定效果，但也存在以下几个问题：1)没有对整定区间进行合理的离散化处理,导致抽样占用的计算资源过大；2)待寻优的控制参数过多,导致仅有部分参数的概率收敛；3)回报函数设计存在不合理之处,导致收敛速度过慢。本文就这3个方面对CARLA算法进行了改进,并将其应用于滑模控制参数整定，算法的设计过程具体如下：

对于滑模控制器第i个控制参数xi，给定一个相应的学习区间Xi

Xi={xi|xi(min)

(11)

式中，xi(min)为该控制参数的最小取值；xi(max)为该控制参数的最大取值。初始情况下，每个控制参数服从区间上的均匀分布

(12)

在进行控制参数选取时，每个参数通过其在区间内的概率分布进行抽样选取。考虑到本文模型对控制量的精度需求并节约算力，在抽样时需要对区间进行一定的离散化处理，具体的参数学习区间和离散程度设计如表1所示。

表1 控制参数的求解区间及离散点数目

(13)

式中，ai为第i个控制参数的离散点数目，式(13)相当于对概率指标进行了归一化处理，每次选取控制参数时，各控制参数根据自己的概率密度分布进行抽样。将选取的控制参数组合应用到控制系统中可得到性能指标。

定义控制性能评价指标如下

J(k)=c1Ess+c2ts

(14)

式中，k为迭代次数；Ess为稳态误差百分数；ts为调节时间(这里选择10%准则)；c1、c2为权重因子，根据控制性能的侧重性进行设计。在飞行器的姿态控制回路中，受飞行器结构和控制机构执行能力的限制，飞行器角速度ω一般不超过30(°)/s，对本文的控制方法来说，ω受限时不会产生超调，因此J(k)中不含超调量项。若要将本文提出的算法应用于其他的控制参数整定问题中，则可按需添加该项。虽然这些指标各自的量纲不同，但只要该组合能够充分反映系统的控制性能就可以作为系统学习的目标函数。

原始的CARLA算法中回报函数定义为

(15)

式中，J(min)为迭代过程中性能指标的最小值；J(avg)为平均值。式(15)的主要思想是，若本次迭代得到的性能指标小于以往的平均值，则给予奖励。由于没有惩罚的存在，奖励给予的标准较低，导致算法求解效率不高，本文将回报函数改进为以下形式

(16)

得到每次迭代的回报后，每个控制参数的概率密度分布函数则进行相互独立的更新

(17)

式中，H(xi,k)是以第k次迭代中选取的第i个控制参数值为中心的高斯分布，具体表达式为

H(xi,k)=

(18)

式中，b1、b2为设计参数，影响控制参数学习的速度和分辨能力。g(k)是为了保证每个控制参数在其学习区间内的概率密度之和为1的归一化因子，具体表达式为

(19)

将算法的总流程总结为图1所示。

图1 控制参数整定算法流程图Fig.1 The flow chart of the control parameter setting algorithm

如图1所示，每个控制参数的概率初始都服从学习区间上的均匀分布，随着迭代的进行，各个控制参数的概率分布会以能提高系统控制性能的控制参数为中心增大，性能指标低的控制参数则会被不断淘汰。迭代次数越多，找到最优解的可能性就越大。式(17)给出的更新公式既能使概率密度朝着高品质的控制参数方向进行更新，同时由于抽样具有随机性，算法也能在给定区间内进行充分探索，避免陷入局部最优的情况。算法的终止条件可设置为迭代达到一定次数或者性能指标满足某个设定值。

3 仿真校验

3.1 改进的CARLA算法整定效果仿真

选取飞行高度25km，以4000m/s的速度水平飞行的环境进行绕质心控制仿真，攻角α初始值为0°，并对攻角大小为5°的阶跃指令进行响应，依照图1的流程，取c1=2,c2=1,b1=0.01,b2=1.5运行算法，每次循环视为一次迭代，设定迭代次数100次后终止，仿真结果如图2所示。

(a) dφ的概率分布随迭代次数的变化

从图2(a)～图2(c)可以看出，随着迭代次数的进行，3个控制参数的概率分布逐渐收敛到高性能的参数值附近；图2(d)中，平均控制性能指标也逐渐减小，在迭代次数达到20次时下降开始放缓，经过约100次迭代后，算法基本收敛。在迭代进行到84次时，出现性能指标最小值J(84)=0.819，此时控制参数组合为dφ=0.1,kφ=8.57,λφ=11.26，将这组控制参数组合代入系统进行攻角的阶跃响应测试，结果如图3所示。

图3 最优控制参数仿真结果Fig.3 The simulation results of the best control parameters

如图3所示，飞行器大约在0.5s左右完成了对5°攻角阶跃信号的指令响应，响应过程快速平稳，且具有极小的稳态误差。改进后的CARLA算法整定出的控制参数具有优秀的控制性能。

3.2 控制参数整定算法对比仿真

采用式(14)定义的控制性能指标，寻优的目标为最小化控制性能指标J，控制参数的求解区间与表1相同，分别调用模拟退火算法(初始温度100℃)和遗传算法(种群大小50，交叉概率0.75)进行求解，结果如图4和图5所示。

图4 模拟退火算法求解效果Fig.4 The effect of the simulated annealing algorithm

图5 遗传算法求解效果Fig.5 The effect of the genetic algorithm

将三种算法的求解效果进行对比，结果如表2所示。

表2 三种算法求解效果对比

如表2所示，三种算法在各自收敛时整定得到的控制参数值十分接近，其中改进的CARLA算法和遗传算法整定得到的控制参数性能指标要略好于模拟退火算法，单从整定效果来看，三种方法差距很小，但改进后的CARLA算法所需迭代次数远远少于其余两种算法，在求解速度上具有显著优势。高超声速飞行器由于其快速机动的特性，一套固定的控制参数无法满足其工作需求，需要针对不同飞行环境快速批量获取控制参数，改进的CARLA算法则很好地满足了这一需求。事实上，工业应用对控制参数精度的需求并不苛刻。该算法还可通过牺牲精度再度提升求解速度。以文中模型举例，kφ在整定时是把[0,10]的范围等距离散为100个点，控制参数求解精度为0.1。若将离散点减少为20个，求解精度变为0.5，那么算法的收敛速度将会显著提升，整定出的控制参数对应的性能指标则损失很小。实际中可根据对精度和求解速度的具体需求选取离散点数目。

4 结论

本文改进了CARLA算法，并将其应用于高超声速飞行器滑模姿态控制器参数整定问题。仿真结果表明，该算法能够在给定求解范围的情况下，通过100次迭代整定出一组性能优良的控制参数，使飞行器快速稳定地跟踪攻角阶跃指令。与模拟退火算法和遗传算法的对比结果表明，在整定得到的控制参数性能相差不多的情况下，本文提出的算法在求解速度上有极大优势，契合高超声速飞行器控制参数快速获取的需求。此外，改进的CARLA算法还能通过减少离散点的方式再次提升求解速度。由于该算法不依赖于模型，理论上也适用于其他控制参数的整定问题，但待求解的控制参数不宜过多，一般在4个以内时，算法的求解能力会较强。总体来说，本文的工作对相关实际应用有一定参考价值。