基于随机森林的月球表面软着陆实时最优控制

2018-07-23，，，

中国空间科学技术 2018年3期

，，，

1. 中国科学技术大学自动化系，合肥 230027 2. 宇航动力学国家重点实验室，西安 710043

中国的探月工程于2004年启动，将探月工程分为“绕”、“落”、“回”3个阶段，在“落”和“回”两个过程中，软着陆作为一项关键技术，既是研究热点，也是技术难点。在进行月球表面探测时，需要使着陆器实现月球表面软着陆，以确保人员及设备安全。在大部分轨迹优化问题中，燃料是制约航天器轨迹设计的主要因素，故本文主要针对燃料最优进行落月轨迹的优化设计。

对于月球表面软着陆问题国内外不少学者都进行了相关研究，文献[1]将一种求解最优控制问题的新方法——高斯伪谱法和传统的直接打靶法有效结合，对月球着陆器定点软着陆轨道快速优化问题做了研究；文献[2]采用改进的遗传算法对航天器飞行轨迹进行优化，并结合动态终迹圈方法进行制导控制；文献[3]提出基于目标点在轨自主选定的月球精确软着陆方案，对月球精确软着陆最优标称轨迹在轨快速规划制导方法进行研究；文献[4]采用李雅普诺夫直接法，构造了基于能量的李雅普诺夫函数，设计了跟踪制导滑模制导律；以上的控制方法普遍存在的问题就是对于入轨存在偏差的情况下，需要重新计算着陆器的下降轨道，但由于整个下降过程时间短，计算轨道需要求解的非线性方程复杂，耗时长，往往不能达到实时控制的目的[5]。

近年来，随着人工智能技术的研究，其功能也逐渐从图像、语音识别处理发展到越来越广阔的范围。利用人工智能解决运动控制中的问题也得到了更多的关注。文献[6]中提出了一种基于神经网络的机器人自主避障控制方法，让机器人在行走过程中通过对障碍物位置的确定实时规划新的路线；文献[7]利用随机森林对机器人手臂进行轨迹控制，使机器人能够平稳地完成抓取过程；文献[8]利用深度神经网络与比例-积分-微分(Proportional-Integral-Derivative,PID)控制器结合的方法对四旋翼飞行器进行轨迹优化控制，通过大量训练使得模型具有强泛化能力，保证飞行器在遇到训练中未曾出现的轨迹时依然能够保持良好的跟踪精度；文献[9]提出一种考虑动态不确定因素的深空探测器任务规划算法，利用模糊神经网络评估扰动等级并设计相应控制律。针对传统落月轨道控制中由于噪声或入轨偏差造成的轨迹偏离，若采用之前方法，需在线重新求解复杂的非线性方程，计算时间长，控制实时性差，不能确保任务顺利完成。本文采用的随机森林模型[10]是通过离线训练模型，当实际执行任务时只需进行简单的线性计算就能通过航天器状态量得到其控制量，可以满足实时控制的要求。

本文通过对航天器从近月点经过制动段，接近段过程进行动力学建模，并成功将随机森林模型应用于着陆整个过程的实时最优控制中，由于随机森林模型对于数据维数少、数据量大的问题具有良好的抵抗过拟合的能力，从而在月球表面软着陆过程中可以不依赖于动力学模型而只根据训练数据实时产生最优控制量进行轨迹重规划。同时，由于该方法不依赖于动力学模型的性质，可用于解决动力学模型更加复杂的任务如火星表面降落，以及运载火箭重返地球等问题。

1 软着陆动力学模型

由于月球周围没有大气存在，故着陆器所受控制力完全由其自身控制系统提供。所谓月球表面软着陆是指着陆器从近月点附近，在制动系统作用下以很小的速度降落到月球表面的过程。由于航天器在执行探月任务时主要的燃料消耗就是从近月点到月球表面的过程，故本文针对该过程进行研究，将该过程分为3个阶段：制动段，接近段和着陆段，图1形象地表示出了这3个阶段。由于三维模型和二维模型原理相同，但计算时间上二维模型要远小于三维模型，故本文所考虑情况均以二维模型为研究对象。

图1 着陆器降落轨道分段示意Fig.1 Trajectory stages of lander

1.1 制动段动力学模型

制动段一般指着陆器从近月点即距离月球表面15 km处到距离月球表面2 km高度的制动飞行过程。建模时考虑到月球表面没有大气，且软着陆过程较短，则其他摄动项可以忽略。设定着陆器在此阶段为恒定推力大小，优化变量为推力角，即推力方向与航天器与月心连线夹角，因此，该过程动力学模型可以表示为[11]：

(1)

1.2 接近段动力学模型

接近段一般指着陆器从距离月球表面2 km到10 m的下降过程，该段下降时间短，且由于着陆器接近于垂直下降，因而经过的月球表面距离很短，故此段可以将月球表面视为平面进行计算，如图2所示。

该过程动力学模型可以表示为[12]：

(2)

图2 着陆器接近段示意Fig.2 Stage of descend phase

图3 有无正则项的俯仰角速率Fig.3 Pitch rate with and without regularization

2 产生训练数据

对于上述的每个阶段都需要产生一个包含最优状态量x*，一个最优控制量u*的数据对(x*,u*)。用高斯伪谱最优控制软件(General Pseudospectral Optimal Control Software，GPOPS)来产生这些最优状态和控制量的数据对，GPOPS是利用高斯维谱法求解有约束非线性规划问题的一个MATLAB工具包[14-15]。在GPOPS中，通过利用稀疏非线性优化器处理相应的非线性规划问题[14]。虽然可以通过它来产生最优轨迹上的数据，但是由于其计算量大，并不适合用于实时计算，故本文只用它来产生仿真所需的训练数据。

由于降落过程的每一段需要优化的变量不同，用于训练模型的样本数量也不完全相同。对于制动段，选择初始点位于距离月球表面15 km附近的一个范围作为合理范围，产生不同初始位置的200条轨迹，每一条轨迹上包含400个点，这样就得到了80 000个包含最优状态和最优控制量的数据对；而对于接近段，由于其控制量变化相对复杂，产生了5 000条轨迹，每条轨迹80～100个点，共产生约400 000个包含最优状态和最优控制量的数据对。用其中80%作为训练数据用于训练模型，10%作为验证数据用于模型调参，10%作为测试数据用于验证模型好坏。在训练过程中，将状态量x*作为输入，将控制量u*作为输出。其中，在制动段中将推力角作为训练标签训练模型，在接近段中将发动机推力和俯仰角速率作为输出，这样分别单独地训练3个随机森林结构。

3 随机森林模型

随机森林(如图4所示)是一种集成结构模型，由多个决策树组成，单个决策树可以看成是弱学习器,而将多个弱学习器组合则形成了强学习器。对于分类问题，每棵决策树会对结果的类别进行判断，而随机森林进行投票，选出结果最多的作为最终结果。对于所研究的连续问题预测，采用的每一棵树为回归树，其输出是所有决策树的平均值，由于随机森林中的每一棵决策树之间是没有联系的，故其泛化能力(即对训练集外的样本产生好的预测的能力)要比单棵决策树强很多[16]。

图4 随机森林Fig.4 Random forest

对于每棵树，使用的训练集是从总的训练集中由放回随机采样出来的，这意味着总的训练集中的有些样本可能多次出现在一棵树的训练集中，也可能从未出现在一棵树的训练集中。同时，“随机”不仅体现在对样本数量的采样随机性，其选取的样本特征也是随机从总的样本特征中选取。随机森林的算法有很多良好的特性，由于其各个弱分类器之间没有联系，这大大减小了调参难度，而一般只有在数据量巨大的时候才会选取神经网络等复杂模型，选择随机森林模型即使使用默认参数，在大多数数据集上依然能得到较好的结果，所以综合考虑调参难度、数据特征和计算机建模时间，本文采用了随机森林模型。但同时其也有一定的缺点，如过拟合，即模型在训练集上表现良好而在测试集上误差很大，故在做验证的时候要对数据在训练集上的精度和在测试集上的精度做出权衡，如果构建的模型过于精细那么模型在训练集上的表现会很好，但是其泛化能力就会很弱，这就是过拟合产生的结果。利用Python的sklearn库中RandomForestRegressor来设计随机森林模型，经过调参最终参数如下：对于制动段，设置所有参数均为默认参数。对于接近段，在考虑推力大小u1时，由于将其看成只有两类的分类问题，故对于u1，模型使用默认参数依然能得到准确的结果；对于u2，经过调参得到最大弱学习器个数n_estimators=850，放回采样bootstrap=True，决策树最大深度max_depth=15，叶节点最小样本数min_samples_leaf=5，在做参数设置时，根据采用的训练集大小，设定了树的个数在500～1 500之间每增加50棵树，进行一次运算，最终得到当树个数为850时效果最佳，在设置max_depth时由于其代表了随机森林中每棵树的最大深度，如果不对该值进行设置，则树的深度将一直延伸，限制了树深度，可以防止模型只在训练集上表现良好而在测试集上表现差。在设置min_samples_leaf的时候没有将每个节点都设置成只有一个样本，因为这样做会造成过拟合，同时，由于min_samples_leaf的设置及随机采样bootstrap的应用降低了外部噪声对随机森林模型的影响，其余参数为系统默认参数，这样限制了每棵决策树不会成长的太长，从而在很大程度上避免了过拟合的发生。

4 仿真分析

图5 制动段各状态量变化Fig.5 State history of deboost phase

得到最优控制与利用设计模型估计的轨迹，在执行的终点位置，各状态量终点误差r约为50 m，θ小于0.000 1 rad，vr为1 m/s，vθ为3 m/s，由此得到虽然选取的初始状态在训练集外，但最终结果只有r误差较大，故在设计下一阶段接近段模型初始状态时可以在初始位置上适当增大训练范围。

得到最优估计与利用设计模型估计的轨迹，在执行的终点位置，各状态量误差x约为2 m，z误差约为10 m，vx约为0.03 m/s，vz约为0.0 m/s，对于月球表面软着陆问题，一般考虑合理的误差范围为位置误差10 m，速度误差1 m/s[17]，故试验得到的结果在误差范围内，满足精度要求。在根据给定的初始状态利用GPOPS求解一条包含200个状态点的最优轨迹时间约为1 min(Intel Core i5-2400@3.10 GHz)，而同样配置的计算机在利用随机森林结构根据给定的状态计算控制量所需计算时间约为0.015 s，而计算整条轨迹约1 s。

5 结束语

图6 接近段控制量变化Fig.6 Control history of descent phase

图7 接近段各状态量变化Fig.7 State history of descent phase

本文针对传统控制方法对于解决航天器月球表面软着陆过程中存在入轨偏差，传统控制方法计算量大，实时性差的问题提出了一种基于随机森林结构的智能控制方法，通过对随机森林结构的训练使得模型能够根据给定的状态量对最优控制量进行预测。将月球表面软着陆问题分成3段进行讨论，通过设计的模型使得在第一段结束后航天器状态的误差在第二段训练设计的训练集范围内，这样保证了航天器即使初始状态超出训练范围也能通过每一段降落过程逐渐缩小其误差，最终达到任务要求的误差范围。仿真试验验证了所设计模型的优越性，对于解决运动控制中实时性要求较高的问题解决提供了新方法。

本文所研究对象为月球表面软着陆，由于月球表面无大气作用，且对控制系统执行力以及测量传感器等的假设都处于理想状态，故若结合工程实际，所需考虑的因素需更多，在后续处理中可以增加对训练集添加噪声，引入控制系统时延以及执行力误差等多方面因素以满足实际工程任务需求。