卷积神经网络单矢量水听器方位估计

2020-12-15曹怀刚任群言郭圣明马力

哈尔滨工程大学学报 2020年10期

曹怀刚，任群言，郭圣明，马力

(1.中国科学院水声环境特性重点实验室，北京 100190；2.中国科学院大学，北京 100049)

矢量水听器由1个声压通道和3个具有偶极子指向性的加速度通道组成，单矢量水听器即可实现声源的方位估计，具有指向性跟声源频率无关、不存在左右舷模糊的优点，同时还可以有效抑制各向同性噪声的优点。近年来基于单矢量水听器方位估计的研究和应用有了很大的进展。Nehorai等[1]提出了2种基于单矢量水听器的方位估计方法(基于声强的算法和基于振速协方差矩阵的算法)并对其方位估计的性能进行了分析。Levin等[2-3]提出了一种基于最大似然估计的单矢量水听器方位估计方法，并研究了混响环境下的方位估计性能。梁国龙等[4]结合矢量水听器自身阵列流型的特点，将阵列信号处理中的MUSIC算法应用到单矢量水听器上，用单个矢量水听器实现了窄带信号和宽带信号的高分辨方位估计。张维等[5]采用量子粒子群求解声压和质点振速组成的非线性相关方程组，实现多目标方位估计。笪良龙等[6]基于海上实验数据分析了平均声强器和复声强器2种方法的方位估计性能。胡承彦等[7]提出了一种利用单矢量水听器声压和加速度互谱的方位估计方法。由于单矢量水听器的指向性指数最高为6 dB[8]，传统的基于单矢量水听器的方位估计方法对信噪比都有较大的依赖。因此，一种能在相干噪声干扰下实现较高精度的方位估计的方法是目前所急需的。机器学习是近年来的研究热点，其在声源定位方面表现出了优于传统方法的良好性能。NIU 等[9-10]研究了基于垂直阵的前馈神经网络、支持向量机和随机森林3种机器学习方法在声源测距上的性能，并用实验数据进行了验证。HUANG等[11]将卷积神经网络的输出作为前馈神经网络的输入，研究了深度神经网络在垂直阵声源测距中的性能。基于机器学习的垂直阵水面水下目标分辨、水平阵方位估计等也都取得了一定的进展[12-14]。基于机器学习的方法具有比传统的定位方法更高的定位精度和更好的环境适应能力。本文利用深度学习的方法，不依赖实验数据，仅利用KRAKEN仿真的矢量声场数据来训练卷积神经网络，利用训练好的神经网络模型来估计目标方位，以期获得比传统方法更高的估计精度。

1 矢量信号模型和数据的预处理

1.1 矢量信号模型

矢量水听器能同时共点地测量声场的声压和加速度的3个正交分量，考虑声场中的1个微分单元，根据牛顿第二定律可得：

(1)

(2)

(3)

(4)

式中：ax、ay、az分别为加速度a的3个正交分量;α为极角;θ为方位角，是本文方位估计值。

1.2 数据的预处理

在声压和加速度输入到神经网络之前需要对其进行预处理，以便神经网络可以更有效的提取特征，首先对声压和加速度进行归一化处理：

(5)

图1 加速度a及其3个正交分量ax、ay、az 的投影图Fig.1 Acceleration a and projection of three orthogonal components ax, ay and az

其次，将归一化后的声压和加速度进行互谱运算后再进行快拍平均：

(6)

由于本文的深度学习方法属于监督学习，所以在训练卷积神经网络的时候需要用到标签(真实方位角)，标签数据的预处理如下：

(7)

式中：tn为第n个采样点的标签，d=[1,2,3,…,360]；dnr为第n个采样点的真实角度；σ表示方位角的模糊度范围，在本文中σ为15。

1.3 估计结果的度量标准

本文中设估计值θe和真实值θr之差的绝对值小于10°(|θe-θr|<10°)的估计值为正确的估计结果，用估计准确率作为方法性能的度量标准之一，估计准确率为：

(8)

式中：NC表示估计正确的估计结果的个数；N为总的估计结果数。

均方根误差ERMSE为方法性能的度量标准，均方根误差表示为：

(9)

2 卷积神经网络的设计和训练

2.1 神经网络的设计

本文采用的深度神经网络为卷积神经网络。卷积神经网络整体上由输入层、隐藏层和输出层组成，其中隐藏层包括卷积层、激活函数、池化层和全连接层。卷积层是卷积神经网络的核心，卷积的工作原理可以理解为：在三维输入数据上滑动n×n的窗口，在每个可能的位置停止并提取周围特征的三维数据块。每个三维数据块与学到的同一个权重矩阵(卷积核)做向量积，转化为一维的向量。对所有这些向量进行空间重组，使其转化为三维输出特征数据。输出特征数据中的每个空间位置都对应于输入特征数据中相同的位置。该卷积层的输出即为下一个卷积层的输入。卷积的计算过程为：

(10)

式中：K表示卷积核；I表示滑动窗口提取的数据；i、j表示数据的位置。一般来说，计算机在处理数据时，数据会被离散化，所以卷积运算由积分变为离散求和。设最后一个卷积层的输出为x=[x1,x2,…,xk]，卷积层的输出即为全连接层的输入，对于全连接层，其计算的过程为：

(11)

式中：s为神经元的序数；wsk、ws0为权重和偏置；as经过激活函数的转化后即可得到该全连接层的输出bs：

bs=f(as)

(12)

该全连接层的输出即为下一个全连接层的输入，并重复式(11)、(12)的运算，其中激活函数f(·)采用线性整流函数(ReLU)，其表达式为：

f(x)=max(0,x)

(13)

本文所采用的卷积神经网络结构如图2所示，卷积层中“3×3”表示卷积核的大小，第3个数字表示卷积核的个数(如第1卷积层“3×3×128”中“128”表示该卷积层共有128个卷积核)。由于输入数据的维度较小(3×202)，在设计的神经网络中并没有添加池化层。为降低训练过程中神经网络过拟合造成的影响，在卷积层和全连接层之间，全连接层和输出层之间加入随机失活层。图2所示为本文所用卷积神经网络的结构全连接层一共有4个，每个全连接层包含2 048个神经元。

2.2 神经网络的训练

神经网络的训练和学习过程主要围绕以下4个方面：1)由多个层组成网络层；2)输入数据和相应的目标值；3)损失函数，即用于学习的反馈信号；4)决定学习过程如何进行的优化器。关系如图3所示。

图2 卷积神经网络的结构Fig.2 The structure of the CNN

图3 卷积神经网络的训练流程Fig.3 The processing diagram for CNN training

神经网络的训练和学习过程为通过损失函数和优化器不断更新权重使神经网络的预测值不断接近真实目标值的过程。本文采用的训练数据为KRAKEN模型仿真的数据，海洋环境为典型的浅海波导，海底为分层介质包括沉积层和基底。仿真的声源、接收和环境参数如表1所示。共仿真输入数据360×25×2×4×6=432 000组，将利用表1中参数仿真的数据训练的神经网络命名为CNN-3。

3 实验仿真及数据处理

本文通过仿真数据研究CNN-3在不同信噪比下的方位估计性能。同时引入加权直方图法[6,15]来跟CNN-3进行对比。

仿真的环境参数如下：在1°～360°等间隔的取100个采样点，声源深度为4 m，声源距离2 km，信号频段为800～900 Hz，采样间隔为1 Hz，海深61 m，沉积层厚度为6 m，沉积层声速为1 600 m/s，沉积层密度为1.6 g/cm3，沉积层衰减为0.3 dB/λ，基底声速为1 750 m/s，基底密度为1.8 g/cm3，基底衰减为0.3 dB/λ。利用KRAKEN模型仿真声压和质点加速度，并加入色噪声，设置-5、0、5、10和15 dB 5个信噪比，分别利用加权直方图法和CNN-3对仿真的带噪声数据进行方位估计，得到的2种方法在不同信噪比下的估计准确率和均方根误差如表2所示。

表1 仿真环境的参数Table 1 The parameters of simulated environment

由表2的结果可知，2种方法的方位估计性能随信噪比的增加而增加，当SNR≥10 dB时，2种方法的估计准确率均达到100%，均方根误差均小于2°。而当SNR<10 dB时，CNN-3的方位估计性能要明显的优于加权直方图的方法，特别是在SNR=-5 dB时，CNN-3的估计准确率为87%，均方根误差为6.9°；而加权直方图法的估计准确率只有66%，均方根误差为28.7°。随着信噪比的增加，两者的性能差距在逐渐缩小。总体来说，卷积神经网络(CNN-3)具有良好的方位估计性能，特别是当信噪比较低时，其估计结果依然十分可靠。

表2 加权直方图法和CNN-3在不同信噪比下方位估计的准确率和均方根误差

2018年在中国南海进行了单矢量水听器的被动方位估计实验。实验过程中将船的辐射噪声作为声源，声源船船长60 m，船宽26 m，围绕矢量潜标逆时针作半径约为1 km的圆周运动，船速保持在10 kN左右，其运动的航迹如图4(a)所示，声源船与矢量潜标的距离随时间的变化如图4(b)所示。实验海区海深61 m，矢量水听器以潜标的形式布放在水下44 m的深度。矢量水听器的采样率为12 kHz，有效工作频段为20～3 000 Hz。实验过程中，矢量水听器的航向角变化如图4(c)所示，航向角的变化代表矢量水听器自身水平方向的转动，从图中来看其随时间有较快且幅度较大的抖动，本文中的方位估计结果都根据航向角进行了补偿。矢量水听器的各通道时频图如图5所示，分别是声压和加速度通道在100～1 000 Hz频带内的时频图。

图4 实验过程中声源和矢量水听器的主要参数变化Fig.4 The main parameter changes of source ship and vector sensor during the experimen

实验海区距离三亚港口较近，有大量的航船来往，由于远处航船噪声的能量主要集中在低频段(800 Hz以下)，但由于其强度较大，对估计近处的目标舰船的方位角有较大的干扰，因此在进行实验数据处理时选择800～900 Hz的频段。

将矢量水听器测得的声压和质点加速度按式(5)、(6)进行预处理后输入训练好的卷积神经网络CNN-3，得到的方位估计结果如图6(b)所示，图6(a)为加权直方图法得到的方位估计结果，其结果作为深度学习法的对照。

将图6的估计结果分3段来分析：

1)在0～200 s的时间段内，图6(a) 基于加权直方图的估计结果的准确率为29%，均方根误差为13.3°；图6(b) 基于CNN-3的估计结果的准确率为85%，均方根误差为7.6°。在这个时间段内卷积神经网络的性能要明显的优于加权直方图法，但2种方法均存在较大误差，误差出现的原因可能是由于在这个时间段内有较强的干扰出现。

图5 矢量水听器接收航船噪声信号的时频Fig.5 The time frequency diagram of ship noise received by a vector sensor

图6 实验数据的方位估计结果Fig.6 The azimuth of experimental data estimated

2)在200～400 s的时间段内，图6(a)基于加权直方图法的估计结果的准确率为24%，均方根误差为52.1°；图6(b) 基于CNN-3的估计结果的准确率为24%，均方根误差为22.9°。在这个时间段内，2种方法的估计准确率都非常低，但结合图6和其均方根误差来看，基于加权直方图的估计结果已经严重的偏离真实值，而基于CNN-3的估计结果虽然也有较大的误差，但没有严重偏离真实值，仍然有一定的参考意义。这一段较大误差出现的原因为：由图4(b)可知，在200～400 s的时间段内声源距离增加，声源距离的增加导致信噪比的下降从而造成了误差的增大。

3)在400～1 331 s的时间段内，图6(a) 基于加权直方图的估计结果准确率为93%，均方根误差为5.7°；图6(b) 基于CNN-3的估计结果的准确率为97%，均方根误差为4.8°。在这个时间段内2种方法都有较好的表现，CNN-3的估计结果略好于加权直方图法。

综上，在各个时间段内，基于卷积神经网络方法的性能要优于加权直方图法，尤其是在0～400 s干扰较强、信噪比较低时，卷积神经网络的优势更加明显，进一步验证了本文方法的可靠性。

对于实验中出现的误差，除了上面分析的几点外还存在以下3点：1)作为声源的船只并不是一个点声源，船长为60 m，而记录GPS的天线位于船艉，在1 km的声源距离上由此造成的误差最大能到3.4°；2)估计结果根据罗经记录到的航向角进行了补偿，但罗经记录的航向角本身可能存在一定的误差，进行补偿时就把误差引入了结果之中；3)矢量水听器x、y通道的指向性并不是严格的正交，不满足加权直方图法和仿真的训练数据正交的前提假设，从而引入了误差。

4 结论

1)与很多机器学习定位方法相比，本文方法不需要实测数据作为训练数据，仅利用KRAKEN仿真数据对卷积神经网络进行训练，降低了训练成本。

2)仿真结果表明利用卷积神经网络的方法可以获得精确的方位估计结果，特别是在低信噪比的情况下(-5 dB)其依然有较高的估计准确率EACCU=87%，ERMSE=6.9°，高于加权直方图法EACCU=66%，ERMSE=28.7°。实验数据处理结果说明在各个时间段基于卷积神经网络的方法都要优于传统的加权直方图法，进一步证明了卷积神经网络法的可靠性。

3)由实验数据分析结果可知，其他船只的干扰、矢量水听器各通道的指向性不严格正交、声源距离增加导致信噪比的下降、声源船不满足点声源条件以及罗经存在误差等都是造成方位估计结果不准确的原因，在以后的实验中应尽量避免这些因素的干扰。