APP下载

一种基于PPO 的AUV 网箱巡检方法*

2023-05-12颜承昊林远山

计算机与数字工程 2023年1期
关键词:声呐网箱控制策略

颜承昊 林远山 李 然 于 红 王 芳

(大连海洋大学信息工程学院 大连 116000)

1 引言

随着海洋牧场的发展,深海养殖规模越来越大,深水网箱养殖已成为一种重要的养殖模式[1]。在网箱养殖过程中,存在网衣破损[2]、鱼类生长状态监控[3]等问题,因此十分有必要对网箱开展定期巡检。

目前,养殖网箱的监测方法主要有:

1)人工潜水法。该方法由潜水员潜入水下对网箱及养殖鱼类生长状态进行查看。水下压强较大,会对人体心肺等器官造成伤害。

2)定点监测法。该方法在水下安装摄像头等定点传感器,以实现对网箱的观测[4~7]。定点传感器长时间处于水下环境,容易被海水腐蚀以及海生物附着,维护成本高。若需维护维修,需要人工潜水拆卸取回,将面临人工成本高、安全性低等问题。在AUV 巡检法中,AUV 无需长时间持续在水下运行,即检即收。这样降低了故障率,减少维护成本。

3)ROV 巡检法。该方法通过遥控ROV 执行巡检任务[8]。ROV 为有缆设备,需要母船支持且需要工作人员长时间的监控屏幕[9~12],人力物力成代价较高。

4)AUV巡检法。使用AUV对网箱自主巡检[13],该类方法主要基于惯性导航系统(INS)、全球定位系统(GPS)、多普勒速度仪(DVL)等多传感器集成[14~18]实现AUV 的导航。这些传感器要么受限于水下信号衰减的约束,要么本身成本较高,难以大规模推广应用。

侧扫声呐工作频率通常为几十千赫到几百千赫。在水下环境中,作用距离一般为300m以上,相较于摄像头等传感器,信号衰减相对较弱,适合作为水下环境获取信息的传感器。在水下难以得到机器人的精确动力学模型。深度强化学习无需建立动力学模型,通过与环境的交互以试错方式完成策略的学习,适合应用于水下机器人的控制。

基于以上,本文将网箱巡检问题建模成马尔可夫决策过程,利用深度强化学习算法PPO训练得到网箱巡检控制策略。该方法根据侧扫声呐的感知信息和机器人的速度信息生成观测状态,以神经网络构建控制策略。在奖励函数设计方面考虑了路径长度、航向、距离等因素,设计了多约束奖励函数。基于gym、ros、uuv_simulator 搭建了一个水下网箱养殖仿真环境。在该环境下的仿真结果表明,在学习到的策略的控制下,AUV 能够实现网箱的自主绕行巡检,轨迹稳定平滑,验证了本文方法的有效性。

2 巡检任务描述

图1 所示为养殖网箱模型,网箱巡检指的是通过控制AUV 环绕网箱运行。AUV 可搭载摄像头、水质检测仪等传感器实现对网箱的监测。使用侧扫声呐作为控制AUV 运动的感知器,由于网箱具有空隙,导致感知数据不能真实反应水下机器人与网箱的关系。为简化问题,本文做以下两个假设:

图1 网箱结构模型

1)假设侧扫声呐不受任何噪声干扰。

2)假设网箱上有环形带,使得声呐所获取的原始数据皆是关于AUV与网箱关系的有效信息。

3 网箱巡检问题的MDP形式化定义

本节给出网箱巡检任务的马尔可夫决策过程(Markov Decision Process,MDP)形式化表示,包括状态表示、动作表示、奖励函数设计和策略网络设计。网箱巡检任务即寻找一个累计奖励函数最大化的策略。

3.1 状态表示

侧扫声呐的侧扫范围为180°,每间隔1°记录一个感知数据,即侧扫声呐感知的原始数据为一个180 维数据。但原始数据极为单一,不利于机器人学到有效控制策略。状态信息被设计为一个四元组(min,abs,v,ω),其中min 为180 维数据中最小值,该数值能够反映出机器人与网箱的距离信息;abs为中轴线左10°、右10°数值差的绝对值,该绝对值能够反映出机器人与网箱之间的方向关系,选取中轴线的左右角度各为10°,因为在以往实验中发现这个角度中的声呐在规定的距离范围内,始终覆盖网箱;v 为机器人当前的线速度;ω为机器人当前的角速度。

3.2 动作表示

本文采用连续动作来驱动机器人运动。AUV的控制动作由线速度v 和角速度ω构成,连续动作空间为

作用是为了防止机器人过快或过慢以及瞬间航向偏转过大。

3.3 奖励函数设计

奖励函数会直接影响动作的选择。本文奖励函数的设计基于以下因素考虑:机器人的巡检路径最短、机器人与网箱的距离保持在一定范围、机器人与网箱的夹角保持在一定范围。针对上述因素,本文设计了多约束奖励函数,如式(1)和(2)所示。

当AUV在有效范围内时:

当AUV超出有效范围时:

式(1)中,w为权重,控制各奖励的比例。rforward为对AUV持续前进的奖励,其值为线速度v;rdirection为对AUV 航向偏离的惩罚,其值为负abs。当abs 值为0 时,机器人航向与网箱圆周平行。当abs 值不为0 时,表示机器人航向偏离网箱。因此采用负abs作为对偏离惩罚;roffset为对AUV与网箱距离的惩罚,AUV 与网箱距离存在一个理想距离,当二者距离小于或大于理想距离时,对其进行惩罚。具体地,以二者实际距离与理想距离的差值的负绝对值作为惩罚;roff为对AUV 脱离有效范围的惩罚,取值为一个负常数。

3.4 策略网络设计

本文中,将提取组合后的数组数据作为神经网络的输入,因此并不需要卷积神经网络,所以为减少网络计算量,缩短训练时间,文中使用多层感知机神经网络作为策略网络。神经网络图如图2 所示,其结构为输入层1 个神经元;2 个隐藏层,每个隐藏层64个神经元;输出层2个神经元。输出层为value值和策略。

图2 策略网络图

4 策略网络训练方法

网箱巡检策略学习算法伪代码如图3 所示。在每个轮次中,首先初始化策略参数、价值函数参数、裁剪参数。然后开始迭代训练。使用当前策略控制AUV 运行,得到声呐的原始感知数据后,对其计算、提取、组合得到输入观测状态;每轮迭代中执行T 个批次采样,每步交互后获得经验数据,其中s't为t时刻AUV 的观测状态,at为使用当前策略πθ执行的动作,rt为所执行动作依照多约束奖励函数获得的当前奖励,v(st)为状态价值,dt表示回合是否结束的标志。采集到的经验数据存入经验缓冲池中。最后调用优化算法学习得到最优策略πθ。

算法基于PPO的网箱巡检

输入:初始化策略参数θ0,价值函数φ0,裁剪参数ϵ,优化轮次Κ,批次采样步数Τ,训练迭代次数Ν

输出:最优策略πθ

1 forn=0,1,2,…,Νdo

2 初始化环境:得到st

3 对st进行计算、提取、组合:

4 fort=0,1,2,…,Τdo

6st+1,rt,dt← Εnv(at)

8 计算优势估计Αt

9 end for

10 forκ=0,1,2,…,Κdo

11 通过优化损失函数更新策略参数θ、价值函数参数φ:

13 end for

14 end for

5 实验

5.1 仿真环境搭建

基于gym、ros、uuv_simulator 搭建了一个水下网箱养殖环境。该环境包含水体模型、网箱模型和机器人模型。其中水体模型包含海床、海面、水三个部分,机器人搭载侧扫声呐,侧扫声呐置于机器人侧面,如图3所示。

图3 水下养殖网箱环境场景

5.2 实验结果与分析

实验中,机器人距离网箱有效范围设为[5.5,7.5],当超出这个范围就结束回合并重置机器人到初始位置。机器人与网箱的理想位置设为6.5。奖励函数中设置权重w1=w2=w3=w4=1,裁剪参数ϵ设为0.2,批次采样步数Τ设为1024,轮次Κ设为10。

平均回合奖励如图4 所示。随着回合次数增加,平均奖励呈增大趋势。这说明,机器人学习过程中策略得到不断优化。

图4 平均回合奖励

回合长度如图5所示。在100回合时回合长度呈增加趋势,随后下跌,最后在140 回合时,机器人学习到了有效的控制策略。该策略可完成网箱巡检任务,运行轨迹稳定平滑,由Rviz 绘制的运行轨迹如图6所示。

图5 回合长度

图6 测试案例AUV轨迹

5.3 网箱空隙对仿真的影响

在上述实验的基础上,再次进行完善,去掉了网箱的环形带,对网箱进行加密处理,使其更接近鱼网的密度,如图7所示。

图7 具有空隙的网箱模型

平均回合奖励如图8 所示。随着回合次数增加,平均奖励在170回合之前呈上升趋势,在170回合时达到峰值。这说明,机器人学习过程中策略得到不断优化。

图8 平均回合奖励

回合长度如图9所示。在170回合时回合长度呈增加趋势,随后下跌,最后在170 回合时,机器人学习到了有效的控制策略。该策略可完成网箱巡检任务,运行轨迹稳定平滑,由Rviz 绘制的运行轨迹如图10所示。

图9 回合长度

实验结果显示,在具有空隙的情况时,声呐获取的感知数据会有轻微误差,对原始数据中的误差值进行平均数替换后,机器人可以得到有效的控制策略。

6 结语

本文针对水下养殖网箱的巡检问题开展了研究。提出以声呐作为传感器,利用深度强化学习算法PPO 解决网箱巡检问题的思路。根据声呐的原始感知数据和机器人的速度信息组合生成观测状态。策略网络采用多层感知机模型,奖励函数的设计综合考虑了路径长度、偏移、距离等因素。仿真实验表明本文方法的有效性,能够学到有效的控制策略,完成网箱巡检任务。

猜你喜欢

声呐网箱控制策略
探索大洋的“千里眼”——声呐
一种便携式侧扫声呐舷侧支架的设计及实现
声呐
工程造价控制策略
现代企业会计的内部控制策略探讨
10kV配网箱变局放检测案例分析
全国首例网箱豢养江豚繁育成功
池塘小网箱养殖黄鳝
容错逆变器直接转矩控制策略
基于Z源逆变器的STATCOM/BESS控制策略研究