基于深度学习的水下目标声学识别与定位技术研究

2022-01-19岳成海宫俊玲曾俊宝徐高朋

数字海洋与水下攻防 2021年6期

岳成海，王旭，宫俊玲，曾俊宝，徐高朋

（1.中国科学院沈阳自动化研究所机器人学国家重点实验室，辽宁沈阳 110016；2.中国科学院机器人与智能制造创新研究院，辽宁沈阳 110169；3.中国科学院光电信息处理重点实验室，辽宁沈阳 110169；4.辽宁省水下机器人重点实验室，辽宁沈阳 110169）

0 引言

随着声学传感技术的不断发展，声呐设备的不断先进，基于声学图像的水下目标识别已经成为越来越重要的一个课题，世界上各国的军事专家，学者，研究人员等都对其极为关注。传统的声学图像目标识别系统中，主要以图像分割、轮廓提取等人工特征为主。近年来，随着深度学习在图像识别技术领域的不断发展，将深度特征应用到声学图像目标识别中来[1-4]，与人工特征进行结合，以此提高目标识别准确率成为可能。

1 声图合成与处理

声呐成像是获取水下信息的重要方式，其设备包括前视声呐系统、侧扫声呐系统、合成孔径声呐系统等。侧扫声呐成像分辨率高、成像覆盖完整，被广泛应用于目标探测与搜索，水下地形勘探等[5-6]。

侧扫声呐回波数据受作用原理[7-8]、复杂水下环境等因素影响，存在干扰与衰减，一般而言声波频率越高、距离越远衰减的越严重，同时噪声干扰也越明显。因此需要对侧扫声呐数据进行必要的预处理，包括衰减补偿及噪声抑制等。侧扫描声呐以尽可能高的采样频率对回波数据进行采集，通过结合AUV运动参数与声呐参数建立时空模型，对声呐换能器接收到的回波数据进行解析，定位每次回波的首尾位置（包含水底、水面等信息）。声呐换能器接收到的第1个回波信号一般来自载体正下方，其强度较大，之后接收到的回波在强度上具有较好的连续性，根据声呐量程设置完成一次测量，一次测量得到的回波序列称为1 Ping。如图1，图 1（a）为侧扫声呐工作模型，图 1（b）为单侧声呐回波数据，根据AUV采集到的水深、高度、姿态等信息可知，图1（b）中“1”为AUV端、“2”为水底、“3”为水面、“4”为最远端。

图1 回波信号Fig.1 Sonar signals

对换能器采集的回波数据进行定位解析后，进行一定的滤波处理与补偿，量化编码后映射为图像中的灰度信息，得到一行图像数据。声呐在前进过程中，结合载体的运动参数以特定的频率不断发射、接收处理回波信号，形成回波图像序列，将左右舷的回波图像序列进行拼接，形成侧扫声呐瀑布图像。拼接后的图像为灰度图像，为便于分析与观测，一般按照一定的色表进行像素映射，从而得到较为直观的彩色图像。

由于各类干扰源的存在，侧扫描声纳的原始图像存在一定的条纹干扰与像素空洞，一般为采样数据丢失或回波数据丢失造成的。本文采用二步滤波法去除噪声：首先采用垂直方向的中值滤波去除条纹噪声，然后采用水平方向的均值滤波填充空洞噪声如图3。

图2 侧扫声呐图像Fig.2 Side-scan sonar image

图3 图像去噪Fig.3 Image denoised

2 卷积神经网络设计

本文基于Darknet框架设计轻量化卷积神经网络模型，该深度学习网络架构由 C语言实现，没有任何依赖项，支持CPU与GPU，可裁剪性强，便于嵌入式部署。本文充分考虑到侧扫声呐成像特点，针对目标声学图像尺寸变化大等问题，设计有效的网络模型。本文设计的单类别目标识别网络结构如下。

1）网络输入。

侧扫声呐图像合成瀑布图后，包含左右声呐数据的图像较宽，本文按照一定高度截取图像后，将左右声呐图像按照上下方式拼接。拼接后的图像同样满足宽度大于高度。卷积神经网络模型输入尺寸设置为608×416（W×H），如图4。

图4 图像拼接Fig.4 Image merged

2）骨干网络。

骨干网络参考YOLO-v3结构[2-3]，设计层数为12层，如图5。第1层利用24个3×3/1的卷积核对原始图像进行卷积计算，提取浅层特征，对卷积结果采用leaky进行激活输出，得到608×416*24大小的特征图；第2层采用最大值池化处理，窗口大小为2×2，移动步长为2，得到304×208*24的特征图，实现对输入浅层特征的降维处理，以减少计算量；第3层利用32个3×3/1的卷积核对上层输出的特征子图进行卷积运算，使用leaky进行激活输出；第4层为窗口大小2×2，步长为2的最大值池化层；第5～12层分别进行5次卷积运算与3次最大值池化处理，依次得到不同深度的网络特征。

图5 网络结构图Fig.5 Network structure

3）特征选择。

被识别目标尺寸变化范围较大，本文分别选择浅层、中层、深层3个网络层特征，以适应不同尺度的目标识别。特征层1选择第12层输出，维度为 19×13*512；特征层 2由第 11层输出进行 1次1×1/1*128的卷积运算后与第9层特征合并，再分别经过 3×3/1*256、1×1/1*128、3×3/1*256 的卷积运算得到，维度为38×26*256；特征层3合并特征层2的部分输出与第7层卷积输出结果，经过1次3×3/1*256卷积运算得到，维度为76×52*256。

4）结果输出。

本文采用 yolo网络结构[10-11]思想，直接输出目标的位置与置信信息（x、y、w、h、confidence）5个基本参数，由于本文只做单类别目标识别，每个特征层可预测3个不同尺度的输出，因此对上述特征输出采用1×1/1*18的卷积运算。

3 卷积神经网络训练

本文训练数据由AUV采集的水下金属球体声呐数据经过图像合成得到，通过不同角度、不同水深与航行参数得到。数据集划分为2类，一类是标注好的带有目标的图像，一类是没有目标的背景图像，数据量以一比一设置，以便于网络正确收敛。

使用K-means统计anchor（尺度参数）：本文的网络结构需要首先根据标注数据计算anchor值，由于采用的是3特征层结构，需要统计9个anchor值，K-means聚类算法，采用距离作为相似性的评价指标，即认为2个对象的距离越近，其相似度就越大，该算法可比较准确的统计出代表框大小。

损失函数与YOLO-v3相同，包含3部分：第1部分是目标位置x，y，w，h（左上角和长宽）带来的误差，也即是box带来的loss，box带来的loss分为x，y带来的BCE Loss以及w，h带来的MSE Loss；第2部分是目标置信度带来的误差，也就是obj带来的loss（BCE Loss）；第3部分是类别带来的误差，也就是class带来的loss（类别数个BCE Loss）。

模型训练采用AlexeyAB开源库实现，训练数据为1 900个，测试数据为200个，从下图训练过程可见，经过8 400次迭代后，loss小于0.1，平均检测精度达99.1%，模型达到收敛状态。最终得到的模型大小为11 MB，单次目标检测时间为105 ms（Intel I7处理器）。

4 图像增强与目标特性分析

基于卷积神经网络完成目标识别后，还需要对目标进行进一步的特征分析[9，12]。特定声学成像场景下，目标声图灰度等级较低，特征单一，需采用有效的图像增强、目标分割、人工特征提取来鉴别真实目标。图 7（a）为包含目标的声学图像（经过去噪处理后转为灰度图像），对比度较低，不利于目标提取与分割。本文首先采用去均值处理得到图7（b），图7（b）中目标附近依然存在灰度干扰，对图7（b）采用Gamma增强处理，γ取值1.5，效果如图7（c），可见目标区域有效凸显，非常利于后续目标分割。

图6 训练过程Fig.6 Training result

图7 处理效果Fig.7 Image processed

本文所述人工特征包含：尺度、亮度值、外形、高亮区域数量、灰度值分布等。对声学图像分析可知，空心金属球与实心金属球展现的声图具有较为明显的不同：空心球体呈现多亮斑特点、实心球亮斑较大且比较圆，该特征可作为金属球的类别判定。图8（a）为空心球体，图8（b）为实心球体。

图8 处理效果Fig.8 Image processed

5 几何校正与目标定位

如图9，侧扫声呐图像中像素点的位置实际上是换能器与水底表面回波点之间的声波往返时间与水中声速相乘获得的倾斜距离，并不是载体与水底成像点之间的水平距离，这是导致声学图像几何畸变的主要原因。此外，载体的运动参数与姿态也对成像造成几何畸变。本文基于声图定位目标后，引入修正机制得到目标的真实位置。根据侧扫声呐成像方式可知，目标物在侧扫声呐图像中存在横向压缩，目标与载体距离越大，压缩率越大。所以为了准确获取声图中目标物的实际位置，有必要对目标的坐标位置进行斜距校正。