APP下载

基于强化学习的腿式机器人运动控制与决策研究

2021-07-28侯远韶

科技创新导报 2021年3期
关键词:运动控制路径规划深度学习

侯远韶

DOI:10.16660/j.cnki.1674-098x.2011-5640-9053

摘  要:传统的腿式机器人在未知环境中进行运动控制和路径规划时收敛速度慢,路径不够优化具有一定的局限性,无法满足运动控制系统对实时性和精确度的要求。针对这一情况,将深度学习的学习能力与强化学习的决策能力有机地结合起来,利用深度学习具有自动特征提取和深度结构的学习优势,以及强化学习在闭环学习系统中对未知环境进行探索、反馈再探索鲁棒性强的特点,从而解决机器人在运动控制中的复杂序贯决策得到最优路径规划,最终实现腿式机器人合理的运动控制与决策。

关键词:深度学习  强化学习  运动控制  路径规划

中图分类号:TP391.4                          文献标识码:A                    文章编号:1674-098X(2021)01(c)-0111-04

Research on Motion Control and Decision of Legged Robot     based on Reinforcement Learning

HOU Yuanshao

(Department of Mechanical and Electrical Engineering, Henan Industry and Trade Vocational College, Zhengzhou ,Henan Province, 451191, China )

Abstract: Traditional legged robots converge slowly when performing motion control and path planning in an unknown environment, and the path is not optimized enough to have certain limitations, and cannot meet the real-time and accuracy requirements of the motion control system. In response to this situation, the learning ability of deep learning and the decision-making ability of reinforcement learning are organically combined, and deep learning has the advantages of automatic feature extraction and deep structure learning, as well as reinforcement learning to explore unknown environments in a closed-loop learning system. The feedback explores the characteristics of strong robustness, so as to solve the complex sequential decision-making of the robot in the motion control to obtain the optimal path planning, and finally realize the reasonable motion control and decision-making of the legged robot.

Key Words: Deep learning; Reinforcement learning;  Sport control;  Route plan

1  強化学习

1.1 强化学习原理及系统组成

机器学习算法作为人工智能算法的核心,包含了有监督、无监督以及强化学习算法。其中强化学习算法作为一种典型的序贯决策问题对无训练样本数据具有很大的优势,通过求解输入输出之间的最优解来解决优化问题,是一种对控制策略进行优化的框架。强化学习作为一种学习算法通过模拟人的学习方式,利用已知的环境数据,不断优化自身的决策,实现收益的最大化,最终得到准确的位置判断和决策控制[1]。标准的强化学习主要受环境状态、动作、探索率以及状态转移模型等8个因素的影响[2]。

1.2 深度学习与强化学习

深度学习作为典型的机器学习算法也称为深层结构学习,通过对原始数据进行逐级提取从而得到抽象的高层表征[3]。深度学习利用分层抽象的思想处理复杂的高维数据,得到具有典型代表性的机器学习有效特征,同时深度学习可以利用网络中任意一层的输出数据作为特征的表达,进而实现特征提取与转换,并反馈给高层数据,继而得到更加复杂抽象的特征[4]。

强化学习算法主要通过对人类学习的心理学以及控制理论中路径规划的最优控制分析,获得知识进而改进策略以适应复杂多变的环境[5]。主要分为模型已知的强化学习算法和模型未知的强化学习算法,两种算法都需要通过环境交互得到信息,不同之处在于其中模型已知的强化学习算法可以利用已知模型对值函数进行计算,进而得到不同控制策略下的最佳输出结果,主要代表算法有价值迭代算法和策略迭代算法;模型未知的强化学习算法,不依赖精确的模型,具有很好的适应能力,通过比较利用与探索问题进而得到最优策略,主要代表算法有时序差分算法和DQN算法[6]。强化学习具体流程如图1所示。

1.3 深度强化学习与路径规划

传统的路径规划算法以及运动控制策略可以实现基本的路径规划和避障运动,但面对快速移动的障碍物和复杂背景时往往出现规划效率不高、收敛速度慢等问题。另一方面,对于腿式机器人来说不管是要进行避障还是路径规划,对周边环境信息的感知是第一步,因此通过深度强化学习强大的决策能力和感知能力,通过对外部环境数据进行感知,进而分析决策,最终将已知的原始高维数据转化为末端的控制机制。

虽然强化学习在智能控制系统中得到了很大应用,很好地结合了运筹学、控制以及其他学科,为强化学习融入人工智能领域奠定了基础。但是由于路径规划数据具有随机性和依赖于传感器获取外部数据,具有一定的时延性,且没有既定的标准和模型可以依赖,因此强化学习存在初期学习时对策略的探索比较依赖,后期侧重对最优化的求解而忽略对新策略的寻找,具有一定的局限性。因此,强化学习需要在维数求解、对模型的收敛速度、对已知和未知问题的研究现状以及时间信度分配的问题进行研究。

2  腿式机器人运动控制

2.1 路径规划算法

传统的路径规划算法可以分为局部路径规划和全局路径规划,全局路径规划针对环境完全已知代表算法有粒子群算法、遗传算法和A*算法;局部路径规划针对外部环境未知或者只有部分已知环境信息,通过传感器实时感知外部数据代表算法有动态窗口算法以及人工势场法。传统的路径规划算法作为典型的慎思框架,首先需要通过对外部环境进行感知继而建立规划模型,然后做出运动策略,最后实现运动,在这一过程中难以对突变环境作出应对,速度慢、同时容易陷入局部最优而非全局最优,因此具有一定的局限性[7]。深度强化学习具有强大的自我学习能力和感知能力,可以实现腿式机器人的运动控制与路径规划,只需要对最终轨迹目标进行确定,而无需对其进行主动参与,就可以实现机器人与外部环境的交互,进而对网络模型进行训练,最终实现路径的合理规划以及运动控制和决策[8]。经典的路径规划算法如图2所示。

2.2 腿式机器人步行策略

腿式机器人具有非线性、多自由度以及多驱动模式等特点,具有较多的不稳定因素因此建立合适的动力学模型是腿式机器人步行策略必不可少的步骤。传统的腿式机器人步行策略通过对步态设计以及模型运用,实现机器人行走的稳定性以及路径规划,主要分为动态步行策略和静态步行策略。动态步行策略,通过分析机器人的运行速度以及质心,将运动问题简化,生成关节轨迹,进而利用逆运动方程进行反向求解步态轨迹,对模型的精度要求较高;静态步行策略,通过对步行过程中的重心投影计算得到其步态轨迹,如果其重心投影一直在支撑的区域内,那么其步态具有一定的稳定性但速度较慢。因此,腿式机器人步行策略需要建立物理模型以避免动力模型中参数的理想化假设与实际行走运动存在的误差,最终实现腿式机器人的运动控制以及及时避障。

2.3 深度强化学习的运动控制

传统的强化学习算法虽然能够在一定程度上对简单的目标运动控制和路径规划作出分析判断,但面对复杂环境和快速移动的障碍物时,传统的强化学习方法往往难以应对。而另一方面,由于移动机器人的运行环境复杂多变,目标和障碍物受各种因素的影响,具有不确定性,因此将强化学习的决策能力与深度学习擅长对事物表征特点结合起来,进而提高算法对未知环境的求解,继而得到准确的数据输出与路径规划。

在进行深度强化学习的运动控制时,需要考虑以下问题:由于深度强化学习善于对像素类数据进行处理,而非图像数据缺乏相应的特征信息因此处理能力不足;同时在缺乏全局信息的情况下,机器人无法对外部环境做出全局判读,进而导致决策数据波动,值函数的收敛性能不好,难以有效实现运动控制。基于此,需要在原始的深度强化学习基础上进行改进,主要包括对传感器采集的数据进行降维处理,记忆网络进行长短时设计以及改进奖赏函数和经验回放。

3  基于深度强化学习的运动控制与决策设计

3.1 避障策略

移动机器人在进行路径规划与运动控制时,不可避免要进行避障策略的研究。移动机器人通过外部传感器感知器路径规划过程中存在的动态或静态干扰因素,继而改变规划选择新的路径,最终到达终点。移动机器人避障一方面依赖于传感器获取外部数据,常见的传感器有超声波测距仪、红外测距仪、激光以及视觉传感器;另一方面,则依赖于避障算法,常见的避障算法有基于向量场直方图(VFH)、势场法(PFM)、模糊逻辑以及神经网络等,模糊逻辑的核心在于模糊控制器的训练,而神经网络方法在于训练模型的建立,这些方法虽然可以对大部分的障碍物作出合理判断,但不具有普遍适用性。基于强化学习的避障策略是一個反复迭代的过程,这种算法只有一个值函数数据,通过多次迭代,实现两个问题的循环往复即由已知策略求解值函数,再根据值函数优化策略,直到全局最优解的出现。具体流程为设计状态空间,继而对离散动作数据进行优化,奖赏函数的选择、动作策略规划,最终进行深度网络结构设计。

3.2 结论及仿真

由于深度强化学习需要多次迭代,对计算机硬件要求较高,因此搭建仿真环境需要合适的仿真工具以及软硬件设备,本文采用ROS Kinect操作系统作为机器人框架,仿真环境则采用开源的Gazebo9.0;硬件则采用64G内存,20G显存,CPU则采用因特i7处理器,主频为3.2G。为了减少系统的运行时间,通过将路径规划模型加速计算,使代码运行速率加快,进而提高仿真运行速率。最后通过对大量实验数据结果进行分析可知,基于强化学习的腿式机器人运动控制与决策,收敛速度快,路径规划具有较高的成功率,在面对复杂多变的外部环境时,可以很好地进行避障运动,进而实现高精度的运动控制与决策。

参考文献

[1] 刘全,翟建伟,章宗长,等.深度强化学习综述[J]. 计算机学报, 2018,41(1):1-27.

[2] 高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100.

[3] 付如彬,李亮,徐成,等.基于强化学习的仿生机器鱼节能研究[J].北京大学学报.自然科学版,2019, 55(3):12-17.

[4] 董培方,张志安,梅新虎,等.引入势场及陷阱搜索的强化学习路径规划算法[J].计算机工程与应用, 2018(1):129-134.

[5] 吴晓光,刘绍维,杨磊,等.基于深度强化学习的双足机器人斜坡步态控制方法[J].自动化学报,2020:73-78.

[6] 张自东,邱才明,张东霞,等.基于深度强化学习的微电网复合储能协调控制方法[J]. 电网技术,2019, 43(6):1914-1921.

[7] 吴保胜, 郭宇, 王发麟,等. 基于改进蚁群算法的线缆路径规划技术研究[J]. 计算机工程与应用, 2018,54(10):236-241.

[8] 王志中.基于改进蚁群算法的移动机器人路径规划研究[J].机械设计与制造,2018,323(1):248-250.

猜你喜欢

运动控制路径规划深度学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
基于TMS320F2812的调光器系统的设计