无人船路径跟随控制方法综述*

2020-06-17张旋武初秀民柳晨光张代勇

交通信息与安全 2020年1期

张旋武谢磊初秀民，4▲ 谢朔柳晨光张代勇

（1.武汉理工大学智能交通系统研究中心武汉 430063；2.武汉理工大学国家水运安全工程技术研究中心武汉 430063；3.武汉理工大学能源与动力工程学院武汉 430063；4.闽江学院物理学与电子信息工程系福州 350108）

0 引言

路径跟随控制是无人船（unmanned surface vehicle,USV）运动控制的基础问题。路径跟随控制是指在不考虑时间维度的情况下，控制USV按照设定轨迹航行。USV在航行过程中受到风、浪、流的干扰，以及运动模型不确定的（包括船速、载重等因素变化）影响，导致实际控制效果与预期不一致，增加了USV路径跟随控制的难度。因此，USV路径跟随控制中的关键问题之一是如何补偿风浪流造成的不可测随机干扰，减小其对控制系统的影响；另一关键是无人船运动模型由于船速、载重和航行水深等变化导致操纵性变化，及模型不确定问题，使得USV控制性能变差，同时由于USV运动固有的时延性和大惯性特点，增加了提升USV路径跟随控制精度和实时性的难度[1-2]。

目前，针对无人船路径跟随控制问题，国内外已经积累了大量的控制方法，如自适应比例-积分-微分（proportion integration differentiation,PID）、最优控制、滑模控制、反馈线性化、反步法以及智能控制等方法，并取得了较好的控制效果。最优控制、反馈线性化以及反步法通常需要建立精确模型才能获得较高的控制精度，而USV运动模型复杂，难以精确建模。滑模控制对模型精度要求不高，但其抖振问题难以消除。自适应PID控制通过估计系统输出，实现PID参数自整定，但由于模型不确定性和外界扰动，估计系统的输出与真实输出存在偏差，控制精度依赖于自适应控制方法和估计系统输出的精度。

笔者将对各类控制器在无人船路径跟随控制中的应用做简要概述，并针对风、浪、流对无人船运动控制的干扰，以及模型不确定问题，分析这些控制器的解决效果。最后对无人船路径跟随控制方可能的发展方向进行展望。

1 路径跟随控制方法

USV路径跟随控制首先确定控制目标期望值，主要运用几何跟踪方法和基于运动模型的跟踪方法。几何跟踪方法包括视距导航（line of sight,LOS）、纯追踪算法和固定方位制导等，将路径跟随控制问题转化为航向跟踪问题。基于模型的跟踪方法包括模型预测控制（model predictive control,MPC）和滑模控制等，根据运动模型直接构造计划航迹的期望舵令。

USV路径跟随控制中还需要获取控制对象的状态参数，包括系统状态和干扰。主要获取方式有卡尔曼滤波观测器和滑模观测器等，以及将干扰当作一种状态参数的扩张状态观测器（extended state observer，ESO）。文献[3]对观测器作了较详细的介绍。

在控制器设计中，主要基于PID、滑模变结构、反步法以及最优控制理论设计控制器，实现航向或路径点的跟踪。

USV路径跟随控制问题，需要同时考虑导航、观测和控制器3个部分。导航确定控制目标期望值，观测确定控制目标状态值，控制器确定控制指令输出值[4]。为提高USV路径跟随控制的精度、稳定性和实时性，国内外学者综合上述3个部分，提出了控制方法，积累了大量的研究成果。笔者将分析几种主要的控制算法对模型不确定性和风浪流干扰问题的处理方法。

1.1 基于PID控制

作为较早应用于USV路径跟随控制的算法，PID控制器结构简单、经济性好且有较高的控制精度。但当存在风、浪、流等外界干扰时，PID控制器的应变能力不足、控制稳定性下降。设计PID参数自整定的自适应控制器能有效提高PID抗干扰能力。目前主要有2类方式用于处理风、浪、流干扰以及模型不确定问题。①通过建立包含不确定项和干扰项的船舶航向误差控制系统的状态方程，设计鲁棒PID控制率，此类算法依赖于建立精确的系统模型。②充分利用人工智能算法在复杂非线性系统领域的优势，提出了许多高效的智能PID控制算法。文献[5]利用遗传算法（genetic algorithm，GA）的全局寻优能力在线整定PID参数，实现自适应PID控制。此控制器存在参数寻优时间长的问题，在实船中应用的实时性难以保证。通过设计寻优过程中的交叉和变异算子，可以缩短寻优过程，提高算法实时性[6]。PID与模糊逻辑结合的自适应控制器[7-8]，由于响应速度快，实时性好，在船舶控制领域得到了广泛应用。该控制器的控制精度主要取决于模糊规则库，而模糊规则库一般基于专家知识和动力学模型建立，过于复杂的模糊规则库将导致计算复杂。文献[9]根据路径点误差、航向误差及误差微分建立模糊规则库，提高了控制平滑性。除此之外，RBF神经网络也常用于拟合内外扰动对PID参数的影响[9]。

自适应PID控制器通常具有良好的实时性，且易于工程实现。现阶段，主要是将PID与模糊控制、神经网络等其他理论结合，实现对PID参数的自适应整定。自适应PID在跟踪期望航向过程中，动态调整PID参数，能显著提高控制算法的动态响应性。但自适应PID在提高动态响应性时，还需要充分考虑船舶执行机构的机械特性以及控制平滑性，避免出现舵令突变、超调过大等现象。如根据船舶状态求解最优PID参数过程中加入了超调惩罚项，根据机械特性限制舵机角度及转角速度等，可以使得控制舵令更加平滑，符合实际工程应用。

自适应PID同时也在一定程度上提高了控制算法的抗干扰能力，主要方法可分为2类：①根据无人船航行数据通过神经网络等手段辨识模型不确定项和未知扰动项，并在控制率设计中进行补偿；②在未知干扰和不确定性项未知情况下，根据经验建立模糊规则库，或采用李雅普诺夫直接法等直接设计控制率，提高控制器鲁棒性。因此，精确辨识或拟合模型不确定项和未知干扰项，以及设计良好的自适应控制率是提高自适应PID控制器抗干扰能力的关键。

1.2 基于最优控制

无人船路径跟踪问题可以转化为最优控制问题，运用线性二次高斯（linear quadratic Gaussian,LQG）问题求解方式进行求解，或运用模型预测理论求解最优解。

文献[11]基于船舶与目标轨迹的位置关系，采用线性二次规划方法（linear quadratic regulation,LQR），实现路径跟踪的最优控制。LQR控制过程中，需要ESO进行状态估计和补偿，提高船舶对外界扰动和量测噪声的鲁棒性。研究表明，LQR控制方法直航或低速跟踪简单曲线的跟踪任务中，有较好的跟踪效果，但在高速航行以及跟踪复杂路径任务中，跟踪精度难以保证。

因此，引入模型预测控制器（model predictive control,MPC），基于模型预测步长中的最优控制指令。MPC控制器模型中加入已知干扰（风速、流速等）项，在约束条件中加入舵机的饱和特性等，能有效提高控制的平滑性和抗干扰能力。文献[13]采用λ-LS-SVM在线辨识方法和补偿扩张状态观测器，提高了MPC对船舶模型不确定性和外界干扰问题的鲁棒性。

文献[12]结合LQR和MPC，采用分层控制思想，见图1。外层采用MPC，内层采用LQR。LQR的误差输入由MPC模型给出的最优状态x*与系统估计输出x_hat得到，输出为补偿控制量ui，MPC控制器输入为期望和系统估计输出x_hat，输出为控制量u*。图1中，u表示MPC解算的控制量，x表示模型输出状态。内层采用较大的采样和控制频率，实现对外界干扰以及模型不确定性等引起的跟踪误差的快速响应，当MPC所建模型准确描述船舶模型和外界干扰时，内层LQR输出为0。

图1 MPC与LQR结合的分层控制器Fig.1 A hierarchical controller combining MPC and LQR

最优控制中MPC控制器通常能获得比LQR更优的控制性能，而MPC控制器本质是求解二次规划问题，模型精度、约束的维度与控制器性能直接相关。基于非线性模型设计的MPC控制器计算复杂，实时性难以保证；而线性MPC控制器在风浪流干扰下的跟踪精度不足。因此，一方面可以考虑寻求更优的二次规划求解方法，如利用神经网络的并行计算能力，即采用动态神经网络拟合船舶模型，并引入惩罚项，将带约束问题转化为无约束问题，提高非线性MPC求解速度。另一方面可以根据无人船实际航行任务，有机结合线性MPC和非线性MPC控制器的优点，同时保证实时性和控制精度，提高工程应用价值。

1.3 滑模控制

滑模控制器一般包括滑模面的设计和趋近率的设计，其中滑动模态的设计与对象参数及扰动无关，因此对USV运动模型精度要求低、响应快速且对参数变化及外界扰动具有鲁棒性，但实际系统是在滑模面左右来回穿越，且在相邻滑模面之间切换时可能存在不平滑问题，因而会产生抖振[14]。

将预测估计值与实际值的误差作为模糊逻辑的输入，修正滑模控制器控制参数[10]，或利用RBF神经网络拟合船舶模型的不确定项[15]，可以削弱因系统不确定性引起的抖振。外界扰动引起的抖振问题，可以通过ESO补偿扰动来消除[16]，同时引入指数趋近率或全程积分滑模等方法可以消除稳态误差，确保系统鲁棒性。

文献[17]在滑模控制中引入自抗扰控制理论，通过线性扩张观测器对系统内外扰动进行在线估计和实时补偿，有效提高了系统鲁棒性。但自抗扰控制理论的引入增加了需要整定的参数数量。采用径向基神经网络逼近模型中有界非线性的不确定项和外界扰动项，可以减少系统待定参数数量，降低计算负担[18]。

文献[19]针对高频波浪干扰，在滑模面中引入自适应因子用于获取稳定的期望艏向，并基于时变阈值规则收敛率设计滑模控制器跟踪期望艏向，提高了算法收敛速度和稳定性。

滑模控制中通过设计适当的滑模趋近率能提高控制器的动态响应速度，针对滑模控制中抖振问题，通过辨识模型不确定项和扰动项，或引入自抗扰理论补偿控制，均可以削弱控制器的抖振现象，但在一定范围内仍存在振荡，且一定程度上牺牲了滑模控制设计简单，实时性好，易于实现的优点。考虑到USV路径跟随控制中滑模控制引起抖振的根本原因是风浪流等随机干扰、模型不确定以及控制时延性，在滑模面设计中引入1个有界时变变量和1个定值时延未知量，将能有效削弱抖振；此外，采用高阶滑模控制，如超螺旋（super-twisting）滑模控制，也能有效解决抖振问题，同时结合自适应理论，可以抑制随机干扰等导致的抖振。

1.4 反馈线性化

应用反馈线性化实现USV路径跟随控制，可以简化路径跟随控制问题[20]。但线性化处理将导致系统误差，降低控制精度。与其他算法类似，可以结合鲁棒控制[21]以及ESO在线估计误差的方法提高控制性能。另外，重定义输出变量[22]、利用RBF构建模糊系统逼近非线性部分以及结合反步法设计反馈线性化控制器[23]等方法，也可以优化反馈线性化控制器性能。

在USV运动控制中，反馈线性化将系统转化为线性系统，从而可以应用线性控制理论解决问题，在小角度转舵，即非线性较低的场景下有较好的控制性能。但反馈线性化的控制率设计存在一定难度，且会加大系统误差，在大角度转舵等非线性场景下，无法满足控制精度需求，一般需结合其他算法优化控制，如采取对非线性项的逼近以及对扰动的观测和补偿等方法。

1.5 反步法

反步法受运动模型影响较大，要得到较好的控制性能和鲁棒性，必须建立精确的模型。因此提高反步法在USV路径跟随控制中的抗干扰能力，可以通过ESO补偿模型不确定项和干扰项等方式实现。文献[24]基于简化模型和精确模型分别设计了三级和四级反步控制率，并采用遗传算法动态整定控制器参数，提高了控制器鲁棒性，并证明了基于精确模型设计的控制器具有更优的控制性能，但也具有更大的计算量，不利于工程实现。文献[25]采用动态滑模理论设计反步控制率的子系统，利用神经网络的逼近模型不确定项和外界扰动的方式，减少了反步法计算量大的问题。在其他控制领域针对不确定性和高低频干扰问题，还提出了一些基于反步法的改进方法，如模型中引入误差的积分饱和项和指令滤波器等，可以简化控制器设计过程。

基于反步法设计的控制器能保证控制系统全局渐进稳定，采用多级反步控制率能提高控制器的鲁棒性，但随之产生的中间虚拟控制量增多，微分计算增多问题，进一步加大了算法计算量。因此考虑从2个方面改进：①针对简化模型建立ESO观测器或采用其他方式拟合扰动和不确定项，提高模型精确性；②结合滑模理论、滤波器等简化反步法的设计和计算。

1.6 智能控制

人工智能方法在长期研究中，发展出了许多优秀的算法，在处理非线性复杂系统问题上具有独特优势。模糊逻辑控制将专家知识转化为模糊规则，可以有效应对模型不确定性和随机干扰对USV的路径跟随控制的影响，在实际应用中，多用于对PID、滑模控制器等算法的参数整定。GA具有稳定的全局寻优能力，也经常用于各类USV路径控制器的参数整定。径向基神经网络可以逼近USV模型不确定项和外界干扰项，提高控制器的抗干扰能力和鲁棒性。

近年来，机器学习理论迅速发展，强化学习等被大量应用在控制领域，在船舶控制领域，也已有少量研究。文献[26]在滑模控制器中采用神经网络实现控制器参数整定，并引入强化学习理论，评价神经网络的整定效果，实现神经网络参数自学习。文献[27]将Q-Learning用于PID参数整定，通过实验证明此控制器能有效抵御外界扰动，实现移动机器人的运动控制。几年前，Deepmind开辟了强化学习在连续控制领域的应用理论[28]，强化学习开始被用于根据状态直接输出连续控制量，且在无人车自动巡航问题中已有相关应用[29]。

强化学习理论不需要建立精确的数学模型，在未知环境中具有自学习能力，且具有一定的通用性[28]，因此在解决USV中的模型不确定性和未知干扰等问题上，有较大的研究价值。但强化学习存在2个问题：①样本效率低；②长期信用分配和奖励稀疏问题。因此强化学习需要较长时间的训练，才能具备较好的控制效果，而在USV路径跟随控制中试错成本高，难以获取大量学习样本；而且考虑到USV的时延性，相邻序列的状态区别较小，容易导致学习过程中梯度消失的问题。控制过程中，为保证同时保证状态-动作对的奖励的合理性，同时需要满足控制舵令的合理性以及控制平滑性，导致奖励函数设计难度大幅上升，而奖励函数的合理性将直接影响强化学习控制器的效果。

智能控制在USV路径跟随控制中的应用，通常结合传统控制方法，辨识或拟合控制参数以及未知干扰项，提高控制器的自适应能力和控制精度，但其稳定性难以保证。除此之外，基于智能控制方法实现的USV路径跟随的控制效果，没有表现出突出的控制性能，且难以获取足够的经验数据用于学习。先通过仿真获取仿真数据，使控制器具有较好的性能，再通过实船试验获取真实数据，在线优化控制器可以较好的解决此问题。为满足更多的功能需求，路径跟随控制涉及的零部件及子系统日趋智能化，复杂化，导致系统中难建模部分增加，系统不确定性增加，可能出现传统控制方法无法解决的问题，此时，应用智能控制算法，建立不断学习的知识库，可以缩小由于对系统模型认知不足导致的控制误差，增强系统鲁棒性。因此，加强基于强化学习等智能控制的方法研究具有长远意义。

2 无人船路径跟随控制发展

针对USV路径跟随控制中模型不确定性和风浪流干扰问题以及几种常用控制方法，现有解决方法这些解决方法可归纳为以下3类：①在控制器导航部分引入自适应控制理论，使得控制器在外界干扰下，仍能获得稳定的期望艏向；②通过扩张状态观测器、神经网络以及最小二乘法等理论实时估计系统模型不确定项和干扰项；③结合2种或多种控制方法，充分利用各自的优势，获得更优的控制效果。

单一的控制器在USV路径跟随控制中，难以有效应对模型不确定和风浪流干扰对系统的影响，通常需结合多种控制理论达到更好的控制效果。而其中多数方法需要建立精确数学模型来获得更优的控制效果，同时又势必增加计算量，加大工程应用难度。其中，基于PID理论的控制器，由于不需要建立复杂数学模型，设计简单，结合模糊逻辑整定PID参数，为工程应用中实现USV路径跟随控制的提供了较好的选择。而对于另一类无模型控制，即强化学习控制器，设计合理的奖励函数则是获得更优控制器性能的关键。

基于此，提出无人船路径跟随控制的4种发展思路。

1）当USV在干扰下艏摇频率大于某一阈值ωmax时，由于USV舵机等相关机械设备的机械特性，USV将难以通过转舵稳定在期望航向，只能通过对路径跟随过程中的偏航进行补偿实现控制。因此，对外界干扰进行分类，将干扰分为已知干扰、未知干扰，将未知干扰分为高频干扰和低频干扰，分别建立风浪流的主频干扰模型；然后通过最小二乘法，以及最小二乘支持向量机等辨识方法辨识干扰模型的主频率，根据ωmax实现低通滤波，和对高频分量的补偿，最终达到路径跟随控制，同时减少由于高频干扰的无效转舵。

2）优化模糊逻辑控制器的结构和参数，包括隶属度函数和模糊规则。采用分层结构，减少规则库大小，增加对输入的敏感度，同时，优化模糊逻辑控制器结构和参数，可以有效降低去模糊化的复杂度，进一步提高其工程应用价值，见图2。例如，模糊逻辑与PID控制器结合，将一段时间序列的控制误差作为模糊推理机F1的输入；将主机转速、USV航速、转艏速度、转艏加速度以及水流速度作为F2的输入，F2输出USV航行状态，即推理USV处于转向航速下降或水流影响导致的转速变化状态；将风浪流干扰模型主频率作为F3的输入，输出干扰状态，即推理控制补偿量；F4根据航行状态修正控制补偿量；F5根据控制误差以及修正后的控制补偿量输出PID参数。文献[30]对模糊逻辑结合和参数的优化做了详细的分析。

图2 分层模糊逻辑控制器Fig.2 structures of hierarchical fuzzy systems

3）结合多种控制方法的优势，分层设计控制器。如前文最优控制中所述MPC与LQG结合的分层控制，同时提高控制器控制精度和响应快速性。

4）强化学习等智能控制方法也将是解决USV路径跟随问题的一个重要研究方向。将PID与强化学习结合，充分发挥强化学习处理模型不确定性和风浪流干扰影响下的控制问题的优势，实现自适应PID控制，如采用Q-learning、深度确定性策略（deep deterministic policy gradient,DDPG）整定PID参数{Kp,Ki,Kd}，见图3。图3中，e(t)表示t时刻的航向误差，u(t)表示t时刻控制器输出的控制舵令，St表示t时刻USV的状态。在控制器设计中应考虑USV的时延性，采用多步时序差分求解梯度，避免小步长内船舶状态变化较小，梯度消失的问题；在奖励函数设计中充分考虑控制平滑性问题，加入不合理舵令的惩罚项，可以减少无效舵令。

图3 基于DDPG的自适应PID控制器Fig.3 adaptive PID controller based on DDPG

另外，在强化学习初期中引入PID或MPC控制监督策略训练，减少训练时间，或者基于Dyna2结构等结合有模型和无模型强化学习，实现强化学习在USV上的工程应用。首先在环境干扰下设计线性MPC控制器，同时采用深层神经网络拟合该控制器，该网络即为有模型强化学习中所依据的模型，根据Dyna2结构结合有模型和无模型强化学习，将价值函数分为永久性记忆和瞬时记忆，永久性记忆利用与真实环境的交互经验来更新，瞬时记忆利用与模型的模拟交互来更新。

3 结束语

笔者对近年几种主要的USV路径跟随控制方法分别进行了分析，提出了各方法可能的发展方向，并分析了强化学习等智能控制方法在该问题上的应用前景，其中基于PID和模糊逻辑的控制方法设计简单，经济性好，工程应用广泛；随着工控机等的计算能力逐渐提高，非线性MPC的计算需求得到满足，工程应用价值也将逐步提升；在应对路径跟随控制系统日益智能化、复杂化的问题上强化学习等智能控制具有明显优势。基于上述分析，提出了USV路径跟随控制几种可能的发展方向，为相关研究提供参考。