APP下载

基于深度强化学习的果园巡检机器人导航研究

2021-04-03户高铭

现代信息科技 2021年19期
关键词:导航果园

摘  要:智能农业机器人如何实现准确移动仍是开发者们面临的一个挑战。传统的导航主要是通过全球定位系统(Global Position System, GPS)的定位来完成导航任务,弊端是其定位精度易受GPS信号强弱的影响。为此,文章提出采用深度强化学习算法SAC(Soft Actor-Critic)来解决果园场景下的导航问题,通过有序随机的课程学习训练方式引导智能体训练。实验结果表明,该方法能够在不使用GPS的情况下很好地完成果园场景下的定点导航任务。

关键词:果园;巡检机器人;深度强化学习;导航;课程学习

中图分类号:TP242                  文献标识码:A文章编号:2096-4706(2021)19-0154-04

Research on Navigation of Orchard Inspection Robot Based on Deep

Reinforcement Learning

HU Gaoming

(School of Information Engineering, Dalian Ocean University, Dalian  116023, China)

Abstract: How to realize the accurate movement of intelligent agricultural robot is still a challenge for developers. The traditional navigation mainly completes the navigation task through the positioning of Global Positioning System. The disadvantage is that its positioning accuracy is easily affected by the strength of GPS signal. Therefore, this paper uses deep reinforcement learning algorithm SAC (Soft Actor-Critic) to solve the navigation problem in orchard scene, and guide agent training through orderly and random course learning and training. Experimental results show that this method can well complete the fixed-point navigation task in orchard scene without using GPS.

Keywords: orchard; inspection robot; deep reinforcement learning; navigation; course learning

0  引  言

对智能农业装备的研究改进是推动智慧农业发展的重要内容,其中智能农业机器人导航技术已被广泛应用于各种作业情景,例如果园除草、果园巡检、作物施肥等作业环节的应用,该技术的引入不仅能为智能农业装备提供精准的导航,還有助于节省人力物力以及避免遗漏作业区域,提高作业效率和作业质量[1-3]。

然而,智能农业机器人如何实现准确移动仍是一个不小的挑战。果园占地面积大,其环境通常是非结构化的,在这种情况下寻求一条高覆盖率的安全作业路径并非易事,正是当下的重点研究内容。近年来,众多学者在果园巡检、小麦收割机等自主导航系统的研发上取得了一定成果。夏友祥等人[4,5]提出基于GNSS全局路径规划方法优化导航路径,减少重复作业和地头转弯路径,提高作业效率。然而基于全局路径规划的方法需要事先熟知环境信息,有赖于先验知识。同时GPS的应用易受卫星信号强弱的影响,精确GPS(厘米级精度)的成本很高昂,而便宜的GPS通常有几十乃至几百厘米的误差,不适用于车道较窄果园中的机器人导航。此外,机器视觉因其具备采集信息丰富、成本低廉等优势也被广泛应用。张甜等[6-11]基于机器视觉对作物收割、除草等作业场景进行了导航路径检测研究。但目前基于机器视觉的导航方式受作业环境、光照条件的影响比较大,存在田间适应性差、实时性差等问题。而激光雷达能以较高频率提供准确的环境距离信息以及环境物体的方位信息等。

近些年,以端到端的方式完成感知决策的深度强化学习算法取得了令人瞩目的成绩,而其在果园导航上的应用却很少。为此,本文以激光雷达作为环境感知器,提出一种基于深度强化学习算法(Soft Actor-Critic, SAC)[12]的导航方法,方法是直接以观测数据作为状态输入,并引入目标相关信息来完成机器人导航[13]。此外,鉴于果园这一场景的范围较大,深度强化学习算法通过与环境交互习得样本,根据随机采样学习有效策略,在学习过程会存在奖励稀疏的情况,在果园的大场景下这种情况会更为突出。为此基于课程学习思想,设计了一种有序随机引导的学习训练策略。有序能够保证任务的难度是逐级递增的,而随机采样则保证任务样本的丰富性。考虑到真实环境下的成本问题,试验和评估均在仿真环境中进行。实验结果表明,以有序随机训练的深度强化学习模型能够完成对果园类似结构的导航任务,具备一定的导航能力。

1  深度强化学习算法

SAC的核心思想是使用能够学习连续动作空间策略的近似函数,解决连续动作空间的强化学习问题,该方法称为随机参与者批评家。因此,一个大的连续域需要导出一个软策略迭代的实用近似值,如式(1)所示。

(1)

软策略迭代是一种学习最优最大熵策略,并在策略评估和策略改进之间交替的算法。在策略评估阶段,它试图根据最大熵找到当前策略的准确值函数;在策略改进阶段,它将当前Q函数的策略分布更新为指数分布。SAC算法将神经网络作为函數,以逼近参与者网络的策略,其中状态值用策略网络近似表示,Q值用批评家网络近似表示。这三个网络用于计算当前状态的动作预测,并为每个时间步生成时间差误差信号。

此外,SAC还以寻求收益最大化为目标,探索策略的熵最大化,如式(2)所示。熵是指变量的不可预测性。如果一个随机变量仍然假设一个值,那么该策略的熵为零,鼓励智能体的探索。

(2)

2  基于深度强化学习的导航策略

2.1  网络结构

在网络结构中,整体基于Actor-Critic(演员—批评者)架构,如图1所示,其中Actor是策略网络,仅将状态作为网络输入,输出策略动作,负责向机器人发送控制信号,使机器人到达目标位置;Critic网络则将状态和Actor网络输出动作作为网络输入,输出对动作和状态的Q值。而14维状态表示包含激光雷达感知180度数据间隔选取的10个维度数据、上一时刻的线速度和角速度,以及移动机器人当前位置与目标位置的相对距离和角度等数值。

2.2  课程训练策略

强化学习的核心思想是通过智能体与环境交互试错的方式来学习有效策略,其中奖励反馈起着至关重要的作用。一般来说,强化学习智能体要想学习到有效策略,通常需要与环境进行大量的交互(交互产生大量的正负样本),然后以随机采样的方式选取样本进行学习。而在学习过程中,正样本对学习有效策略起着正向引导作用,但正样本在学习过程中所占比例相对较小,学习前期正样本的有效分布则更为稀疏。针对奖励稀疏的问题,Ng[14]提出奖励设计,主要根据任务特性进行相关规则的设计来完成任务引导,不过这种设计很大程度上带有人的主观判断,具有一定的局限性;Bengio[15]提出课程学习方法,其思想是对任务进行拆解排序,按照由易到难的顺序进行学习引导。这样的学习方式便于强化学习智能体顺利完成相关的学习任务。

为了更好更快地完成智能体的学习,这里采用课程学习的方式进行训练,称其为有序随机课程引导。完成果园室外移动机器人通常需要行走较远的距离,长情景的导航训练中正样本会更为稀疏。因此,按照课程学习由易到难的顺序对远距离的任务进行分段设置,在起点与目标之间会生成很多的课程任务点作为过渡点,这就实现了任务的有序性,以此完成向目标的过渡。此外,考虑到样本丰富度的问题,于是随机生成各个方向的过渡点。在训练过程中,智能体在完成一个目标但却没有达到最大回合步数时,训练策略会继续生成新的目标点,智能体从当前位置继续向新的目标位置转移。具体的课程学习训练过程如图2所示,首先从训练环境中随机选点,并生成固定点集,然后按照与起点距离的远近对点集中的点进行由近及远的排序。接着开始训练任务,如果机器人能够安全到达第一个任务点,则给予正奖励并从固定点集中选取下一个点作为新的目标点,机器人从上一个任务结束位置开始新的任务。如果机器人未能安全到达第一个任务点,则给予惩罚,并将机器人重新放到起点位置,仍以当前点为目标进行新一轮的训练。如此循环往复,直到机器人完成点集中的所有点才结束训练。

3  实验

考虑到真实环境下的训练代价高昂,因此所提方法的训练和检验均在仿真环境中展开。实验基于ROS操作系统,使用Turtlebot3模拟机器人。

3.1  实验设置

Gazebo是ROS机器人操作系统中的仿真平台,具有高保真模拟特性,因此使用该平台进行仿真场景搭建。如图3所示为训练场景,机器人位于绿色方框位置,其余长方体为随机排布的障碍物。为了提高机器人的适应能力,模拟真实的环境引入了动态障碍物,如图中白色圆柱所示。在评估阶段,为了实现更为切合真实场景的布局,搭建了类似果园的封闭环境,如图4所示,其中绿色长方体模拟果树。训练场景整体面积小于评估场景,主要是为了加快学习步伐,相反,评估场景更大则是为了更加接近实际情况。

对于奖励设置,如果移动机器人与墙壁或任何障碍物发生碰撞,则此动作将获得负奖励-500,并结束当前回合,如果移动机器人到达目标点则给予正奖励1 000。

3.2  训练性能评估

智能体训练只在图3场景中进行,其学习奖励曲线如图5所示,可以看出通过有序随机训练的智能体,从500回合开始奖励呈上升趋势,但曲线存在一定的震荡,其中可能的原因是动作选取具有随机性,同时课程目标在发生变化,在这两种因素的共同影响下,智能体一旦失败,其所获得的收益就会与成功回合表现出过大的偏差,但从整体表现上来看,智能体获得奖励一直处于上升趋势。

3.3  有效性验证

为了验证模型的有效性和泛化性,将所学模型部署到果园场景,图4所示中进行模型评估,相较于训练环境,评估场景空间更大。评估过程设置了7个任务,分别位于左右两侧和前方位置,并按照由近及远的顺序依次评估,根据任务距离长短对任务难度进行划分,其中前5个任务为简单任务,任务6、7为困难任务。评估结果如表1所示,首先在简单任务上,智能体均能顺利到达这些目标点,能够适应环境结构和空间变化,所习得的模型具有很强的泛化能力。其次,即使是对于更远的评估点6、7,智能体也能以较高的概率到达,这说明模型具备远距离导航能力。此外,如图6红色曲线所示,根据智能体行驶轨迹,到达目标点3、4、7均有多条有效路径,这充分说明模型具备一定的探索能力。综上所述,训练所习得的模型具备一定的远距离导航能力,并能够适应环境变化,具备很强的泛化能力。

4  结  论

针对果园非结构化环境的导航任务,本文提出了基于深度强化学习算法的导航策略,并提出一种有序随机引导的课程学习训练方式,具体来说就是在训练环境中进行随机选点,并按照距离远近对所采目标点进行排序,生成固定点集。同时,在随机采样过程中进行360度全方位选点,保证样本的丰富性。考虑到真实场景下训练代价高昂的问题,在类似果园的仿真环境中验证习得模型的有效性和泛化性,实验结果表明,这种训练方式能够快速引导智能体学习有效策略,所习得的模型能够适应环境变化,高效完成各种距离的导航任务,具备一定的实用性。未来将尝试将模型迁移到真实场景中做进一步的有效性验证。

参考文献:

[1] 谢斌,武仲斌,毛恩荣.农业拖拉机关键技术发展现状与展望 [J].农业机械学报,2018,49(8):1-17.

[2] 姬长英,周俊.农业机械导航技术发展分析 [J].农业机械学报,2014,45(9):44-54.

[3] 戴增辉,何凤琴.智能农机自动导航系统应用研究 [J].农机化研究,2018,40(2):202-206.

[4] 夏友祥,刘刚,康熙,等.基于 GNSS 的农田平整定位精度优化与试验[J].农业机械学报,2017,48(S1):40-44.

[5] 刘刚,康熙,夏友祥,等.基于 GNSS 农田平整全局路径规划方法与试验[J].农业机械学报,2018,49(5):27-33.

[6] 张甜.高茬水田耕整路径机器视觉识别方法研究 [D].武汉:华中农业大学,2014.

[7] MENG Q K,QIU R C,HE J,et al. Development of agricultural implement system based on machine vision and fuzzy control[J].Computers and Electronics in Agriculture,2015,112:128-138.

[8] 孟庆宽,何洁,仇瑞承,等.基于机器视觉的自然环境下作物行识别与导航线提取[J].光学学报,2014,34(7):180-186.

[9] 汪博.基于机器视觉的农业导航系统[D].杭州:浙江理工大学,2016.

[10] 郭翰林,洪瑛杰,张翔,等.再生稻收割机的视觉导航路径检测方法[J].福建农林大学学报(自然科学版),2017,46(3):356-360.

[11] 梁习卉子,陈兵旗,姜秋慧,等.基于图像处理的玉米收 割机导航路线检测方法[J].农业工程学报,2016,32(22):43-49.

[12] HAARNOJA T,ZHOU A,ABBEEL P,et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor [C]//International conference on machine learning. Stockholm:PMLR,2018:1861-1870.

[13] ZHU Y K,MOTTAGHI R,KOLVE E,et al. Target-driven visual navigation in indoor scenes using deep reinforcement learning [C]//2017 IEEE International Conference on Robotics and Automation (ICRA).Singapore:IEEE,2017:3357-3364.

[14] NG A Y,HARADA D,Russell S. Policy invariance under reward transformations: Theory and application to reward shaping [C]//In Machine learning, proceedings of the sixteenth international conference.Slovenia:ICML,1999:278-287.

[15] BENGIO Y,LOURADOUR J,Collobert R,et al. Curriculum learning [C]//Proceedings of the 26th annual international conference on machine learning. Montreal:Association for Computing Machinery,2009:41-48.

作者簡介:户高铭(1996—),男,满族,河北唐山人,硕士研究生在读,研究方向:深度强化学习、路径规划。

猜你喜欢

导航果园
呼噜猪的大果园
果园
基于快速检索功能于GPS地图导航的运用
为现代农业“导航”
基于激光导航路径识别的电力巡检智能机器人设计
智能手机菜谱软件的设计
夏日果园
基于HTML5的网络地图研究与实现
水果园
蓬蓬的果园