基于迁移学习的水声通信信号调制识别方法

2022-06-20刘兰军吴坤宇陈家林

海洋技术学报 2022年2期

刘兰军，吴坤宇，陈家林*，黎明

（1.中国海洋大学工程学院，山东青岛 266100；2.山东省海洋智能装备技术工程研究中心，山东青岛 266100）

水声通信是水下远距离无线传输的主要方式，而水声信道是一个带宽严重受限、噪声干扰严重的时变、频变、空变的衰落信道。在海洋信息长期观测、复杂环境水下观测、复杂海况水下信息传输、水下大范围动态组网观测等水下复杂应用场景，水声信道的动态变化特征更为突出，如何高效利用水声信道带宽是亟待解决的关键问题。长期以来，单一载波调制方式的水声通信系统往往受限于应用场景的最恶劣信道，难以充分利用动态变化信道、复杂噪声信道的带宽。支持多种载波调制方式的多制式自适应水声通信系统可自动适应水声信道的动态变化以充分利用信道带宽，是未来水声通信技术的发展趋势之一[1-2]。接收机如何高效准确地识别出信号载波调制方式是多制式自适应水声通信的关键技术之一。

单一载波调制方式的水声通信信号调制识别方法主要是基于特征提取的模式识别方法。该方法主要包括信号预处理、特征提取和模式分类3 个步骤。特征提取方法包括时域瞬时信息[3]、星座图[4]、功率谱[5]等，模式分类主要包括支持向量机[6]、随机森林[7]、BP 神经网络[8]等方法。基于特征提取的模式识别方法需要大量的先验知识，在复杂应用场景的水声通信中，水声信道的复杂性使得调制识别分类器难以获得足够的先验知识，从而不能保证识别精度[9]。深度学习是人工智能快速蓬勃发展的核心方法之一，目前已经在图像识别、语音识别、自然语言处理，以及自动驾驶等领域取得了巨大进展，尤其是图像识别领域。理论上已经证明，深度学习擅长处理非线性问题，若深度神经网络拥有一个包含足够多神经元的隐藏层，则该网络能够以任意精度逼近任意复杂的连续函数[10]。为了解决基于特征提取的模式识别方法的局限性，深度学习技术被用于水声通信信号调制识别。LIDA D 等[11]将卷积神经网络和长短期记忆网络相结合用于水声通信信号调制识别，卷积神经网络用于时间序列学习，长短期记忆网络用于振幅和相位学习，对低信噪比信号具有较高的识别率。王岩等[12]采用深度残差网络识别多种常用的水声通信信号调制方法，通过合理选用残差网络超参数，有效克服了模型过拟合问题，取得了良好识别效果。王彬等[13]为解决脉冲噪声环境下的水声通信信号调制识别问题，采用了降噪自编码器和卷积神经网络的联合方法，降噪自编码器对含噪声信号进行降噪处理，卷积神经网络对降噪信号功率谱图进行信号调制分类识别。同时，采用了迁移学习方法提升小样本条件下的水声通信信号调制识别能力，解决了目标水域水声通信信号训练样本不足的问题。姚晓辉等[14]构建了基于卷积神经网络的水声通信信号调制识别系统，利用卷积神经网络学习水声通信信号的时频特征，实现了BFSK（Binary Frequency Shift Keying）、QFSK（Quadrature Frequency Shift Keying）、BPSK（Binary Phase Shift Keying）和SSB（Single Side Band）4 种数字调制信号的分类识别。李勇斌等[15]提出了一种基于AlexNet的水声通信信号调制识别方法，由网络对信号谱图特征学习以实现多种水声信号的调制识别。

与单载波水声通信系统相比，融合单载波、多载波、扩频等多种载波调制方式的多制式自适应水声通信系统，需要在载波解调前完成信号载波调制方式的识别，其信号调制方式识别面临数据量大、噪声干扰严重的问题。LIU L J 等[16-17]提出了一种数据帧携带载波调制信息的多制式自适应水声通信系统，接收机利用数据帧的固定字段解析出发射机预设的载波调制方式，该方法简单易实现，但难以解决携带载波调制字段被噪声严重干扰的问题。本文针对多制式自适应水声通信系统的信号载波调制方式识别需求及其识别过程存在的数据量大、噪声干扰问题，借鉴现有的基于深度学习的水声通信信号调制识别方法，提出了一种基于迁移学习的水声通信信号载波调制方式识别方法（Underwater Acoustic Communication Signal Carrier Modulation Recognition Based on Transfer Learning，UACCMR/TL）。搭建支持单载波时间域扩频（Single Carrier Time Domain SpreadSpectrum，SC-TDSS）、单载波频域均衡（Single CarrierFrequencyDomain Equalization，SC-FDE）、正交频分复用（Orthogonal Frequency Division Multiplexing，OFDM），以及多载波频域扩频（Multicarrier Frequency Domain Spread Spectrum，MC-FDSS） 4 种典型水声通信载波调制信号的多制式水声通信系统。基于Millica 水声信道模型建立不同通信场景的水声信道模型，仿真生成水声通信信号时间序列数据集。为了突出信号的特征差异，采用时频分析方法将时间序列信号数据集转换成时频图像数据集，利用迁移学习方法将图像识别领域的深度学习模型VGG16 改为VGG16（Visual Geometry Group 16）应用于水声通信信号的载波调制方式识别。仿真结果表明，所提出的UACCMR/TL 方法对SC-TDSS、SC-FDE、OFDM 和MC-FDSS 信号具有良好的识别性能，且该方法可以在不同信道较少数据样本模型微调下达到良好的识别性能，具有良好的信道泛化性能，为水声通信信号载波调制识别提供了一种有效的解决方案。

1 多制式水声通信系统建模与调制信号特征分析

1.1 多制式水声通信系统建模

图1 为搭建的多制式水声通信系统框图，该系统主要包括发射机、水声信道和接收机3 部分，发射机的信号调制包括扩频调制（有扩频调制、无扩频调制）和载波调制（单载波调制、OFDM 调制），扩频调制和载波调制组合可实现SC-TDSS、SCFDE、OFDM 和MC-FDSS 4 种典型的水声通信载波调制信号，发射机输出的信号经过水声信道可获得多制式水声通信信号的时间序列数据集。接收机的信号可表示如下。

图1 多制式水声通信系统框图

式中，r（t）表示接收机的输入信号；s（t）表示发射机的输出信号；h（t，τ）表示水声信道的信道冲激响应；n（t）表示加性高斯白噪声（Additive White Gaussian Noise，AWGN）。

水声信道模型是水声通信系统设计中至关重要的一部分，是具有时间—空间—频率变化特性的复杂信道，这些特性为水下通信带来了巨大的挑战。QARABAQI P 等[18]结合声学传播物理规律（频率衰减，底部/表面反射）和随机位移的影响，提出了Millica 统计信道模型和高效的信道模拟器。该模型主要关注两个尺度上的随机位移，一个是导致瞬时信道响应快速变化的小尺度效应，包括散射和运动引起的多普勒频移；另一个是描述位置不确定性和变化的环境条件的大尺度效应，主要影响局部平均接收功率。

根据Miliica 信道模型，多径信道的总传递函数可以表示如下。

式中，H（f）表示多径信道的总传递函数；f 表示水声信号的频率；p 表示传播路径数；（f）是参考路径p=0 时的函数；hp（f）为p 条路径增益；τp为p 条路径相关的传播延迟。

在该模型下，水声信道在时间t 内的信道冲激响应可以表示如下。

式中，h（t，τ）表示时间t 内的水声信道冲激响应；hp（t）表示第p 条路径的增益；τ 表示时延变量。

1.2 多制式水声通信系统的调制信号特征分析

图2 为搭建的多制式水声通信系统接收机收到的SC-TDSS、SC-FDE、OFDM 和MC-FDSS 信号的时间序列图，可以看出，经过具有时间选择性衰落、频率选择性衰落的水声信道调制，接收机收到的经过水声信道传输后的发射机信号产生了比较严重的畸变，在时域上无明显特征信息，不利于接收机对信号调制方式的识别。

图2 多制式水声通信系统接收机收到的信号时间序列图

图3 为上述SC-TDSS、SC-FDE、OFDM 和MC-FDSS 4 种水声通信信号的时频图，从时频图的能量分布可以看出，4 种信号的时频图能量特征差异性较明显，便于分类识别，为此，本文深度学习网络的输入采用水声通信信号的时频图像。

图3 多制式水声通信系统接收机收到的信号时频图

2 多制式水声通信信号调制识别方法设计

2.1 迁移学习方法

迁移学习是一种机器学习的方法，可以将某个领域或任务中学习到的知识应用到新的相关领域或任务中[19]。迁移学习关注领域和任务两个基本概念，根据源领域和目标领域、源任务和目标任务两对关系，迁移学习可以分为归纳式迁移学习、直推式迁移学习和无监督迁移学习3 种。归纳式迁移学习方法，将源任务中与目标任务通用的知识迁移过来，利用目标任务中的标签数据生成模型，改进目标预测函数的学习[20]。采用归纳式迁移学习方式，可以在目标任务中拥有更高的初始性能，加快训练过程中模型的提升速率，并且训练得到模型的收敛性能更好。

为了突出信号的特征差异，本文采用时频分析方法将水声通信时间序列信号转换为时频图像，将水声通信信号调制识别问题转化成了图像识别问题。同时，为了充分利用图像识别领域已经开发的性能优异的深度学习模型（VGG、AlexNet[21]和ResNet[22]），采用迁移学习将图像识别领域深度学习模型应用到水声通信信号调制识别问题上，具体采用归纳式迁移学习方式。

2.2 基于迁移学习的水声通信信号调制识别方法

2.2.1 VGG16 模型

VGG16 模型由13 个卷积层、5 个池化层和3个全连接层组成，具体网络结构如图4 中上半部分所示，其输入数据为224×224 的3 通道彩色图像。网络结构的网络卷积特征提取部分由若干个卷积层与池化层堆叠而成，形成了较深的网络结构，卷积层均采用尺寸为3×3 的卷积核，步幅stride 大小为1，填充方式padding 为same；池化层的池化核参数均相同，尺寸为2×2，步幅stride 大小为2，池化方式为最大池化。网络中5 个最大池化层可将卷积特征提取分为5 个部分，每相邻的两部分中，后一部分相较于前一部分具有通道数翻倍、图像张量减半的特点。网络卷积特征提取部分之后为3 个全连接层，前两层4 096 个节点，最后预测全连接有1 000个节点，作为用于分类的Softmax 层，输出每个类别的概率。除最后的全连接层外，其余各层均采用修正线性单元ReLU 作为激活函数。

图4 基于迁移学习的水声通信信号调制识别网络设计示意图

2.2.2 时频分析方法

时频分析是一种信号处理的有效方式，可以在时间和频率两个维度上同时反映信号信息。为了更好地表征出水声通信信号特征，本文采用一种Cohen 类时频分布的时频分析方法。

Wigner-Ville 分布（Wigner-Ville Distribution，WVD）具有较好的时频分辨率，广泛用于信号处理领域，但WVD 会产生交叉项干扰[24]。Cohen 类时频分布是对WVD 施加不同核函数得到的一系列时频分布，核函数对WVD 起平滑作用，可抑制WVD的交叉项。平滑伪Wigner-Ville 分布（Smooth Pseudo Wigner-Ville Distribution，SPWVD）是Cohen 类时频分布的一种，其获取过程是首先对WVD 施加时间窗函数进行频域平滑处理以抑制WVD 的频域交叉项，然后施加频率窗函数进行时间方向平滑处理从而弱化时域上的交叉项干扰。SPWVD 的数学定义可以表示如下。

式中，SPWx（t，f）为信号x（t）的SPWVD；z（τ）为时间窗函数；g（u - t）为频率窗函数；t 和f 分别为SPWVD 对应的时间和频率；u 和τ 为积分变量。

2.2.3 基于迁移学习的水声通信信号调制识别网络设计

图4 为基于迁移学习的水声通信信号调制识别网络设计示意图，采用迁移学习将预训练的部分VGG16 网络作为水声通信信号调制识别的初始网络，VGG16 基于ImageNet 数据集预训练，将训练后的卷积层和池化层网络的权重参数及特征迁移至水声通信信号调制识别网络。迁移后的VGG16 网络的主要修改包括：为了降低网络计算复杂度，将目标域时频图像的像素转化成150×150 的RGB 图像作为卷积神经网络的输入图像；为了提高训练效率和避免出现过拟合现象，对全连接层进行模型重构，减少VGG16 模型中的全连接层层数和神经元数目；与4 种水声通信调制信号分类需求对应，将最后用于分类的Softmax 层的分类特征映射到4 种调制类型。迁移后的水声通信信号调制识别网络模型激活函数与VGG16 网络保持相同，仍采用ReLU函数。

在采用水声通信信号时频特征数据进行网络训练过程中，对迁移后的网络、模型重构的全连接层网络进行微调，并对模型的超参数进行调整，以得到最终的水声通信信号调制识别分类网络模型。最终的超参数设置为：使用Adam 优化器对模型进行优化，学习率设置为0.000 01；采用交叉熵损失函数用于计算模型预测值与真实值的差距；训练集每次迭代更新的样本量为80 张时频图，迭代次数为50 次。经过训练，最终获得不同信噪比下的水声通信信号调制识别网络模型用于测试。

3 仿真实验与结果分析

3.1 水声信道建模

本文基于Millica 信道模型对水声信道进行建模。由于小尺度变化参数（主要为多普勒频移）相对于传输时延等大尺度变化参数影响较小，且小尺度变化参数可在水声通信接收端通过多普勒估计与补偿降低影响。因此，本文假设小尺度变化参数引起的干扰在接收端已通过补偿消除，在建模过程中仅考虑大尺度位移变化参数对水声信道的影响，即水深、传输距离和收发机相对位置的影响。通过模拟不同条件下的信道并对其进行分析，最终挑选出3 条典型水声信道用于本文仿真实验。3 条水声信道建模的通信场景参数设置如表1 所示，3条水声信道分别采用CH1、CH2 和CH3 表示。表中的相对位置I 表示发射机在距离水底3H/4 的位置、接收机在距离水底H/4 的位置；相对位置Ⅱ表示发射机和接收机均在距离水底H/2 的位置。3 条水声信道的信道冲激响应如图5 所示，最大时延分别为9 ms、30 ms 和80 ms，多径数分别为16、20和15。

图5 仿真用水声信道的冲激响应

表1 水声信道建模通信场景参数

3.2 训练数据集构建

基于图1 所示的水声通信系统和图5 所示的3条水声信道模型，通过仿真生成水声通信调制信号数据集用于评估所提出的基于时频分析和迁移学习的水声通信信号调制识别方法的分类识别性能。水声通信调制信号数据集生成的具体参数如表2 所示。数据集的水声通信调制信号类型为SC-TDSS、SC-FDE、OFDM 和MC-FDSS。水声信道CH1 主要用于训练集、验证集和测试集的生成，其生成的数据集用于训练模型及测试模型的分类性能。水声信道CH2 与CH3 主要用于测试集的生成，测试模型的泛化性能。水声通信调制信号的载波频率范围为21 ～27 kHz，采样频率为96 kHz，数字调制为BPSK，信号信噪比为-5 dB、0 dB、5 dB、10 dB、15 dB。数据集的每次采样点数为4 096，每次采样4 096 点数据经过时频分析生成一张时频图像，数据集以图片的格式存储。对应每种信号信噪比，数据集的时频图像张数为训练集1 000 张、验证集200 张、测试集200 张。

表2 水声通信信号数据集生成的具体参数

3.3 实验结果与分析

图6 为VGG16 迁移网络不同信噪比情况下采用测试集测试的UACCMR/TL 网络的分类识别结果混淆矩阵图。测试集采用在CH1 信道环境中不同信噪比条件下生成的SC-TDSS、SC-FDE、OFDM 和MC-FDSS 水声调制信号，每个信噪比每种信号的测试集样本数目为200 个。UACCMR/TL 网络的参数计算量为1.89×107，测试时平均每张时频图的识别时间约为0.08 s。由测试结果可以看出，在0 dB 以上的信噪比情况下，所提出的UACCMR/TL 网络具有良好的分类识别效果；识别错误主要发生在SCTDSS 和SC-FDE 之间、MC-FDSS 和OFDM 之间，说明SC-TDSS 和SC-FDE 之间、MC-FDSS 和OFDM之间的特征差异较小。

图6 UACCMR/TL 网络的分类识别结果混淆矩阵图

图7 为经典网络模型VGG16、ResNet 和文献[15]中采用的AlexNet 经迁移学习后的调制信号识别性能对比，图中所标注的数据为基于3 种经典网络的迁移网络测试时SC-TDSS、SC-FDE、OFDM 和MCFDSS 4 种水声通信信号的不同信噪比情况下的整体分类准确率。由图7 可知，3 种经典网络模型在时频图数据集下识别性能最好的为VGG16 网络，其次为AlexNet 网络，识别效果最差的为ResNet 网络，且随着信噪比的增加，3 种迁移网络的识别效果差距缩小，在信噪比为15 dB 时，3 种迁移网络表现出相近的识别性能；同时，测试结果表明随着信噪比增加，VGG16 网络的4 种信号的整体分类准确率逐渐增加，信噪比为15 dB 时，4 种信号的整体分类准确率接近于100%；信噪比为3 dB 以上时，整体分类准确率在90%以上。

图7 基于经典网络模型的迁移学习网络识别性能对比

图8 为VGG16 迁移网络测试时4 种水声通信信号的不同信噪比情况下的单独分类准确率对比。可以看出，随着信噪比增加，4 种信号的分类准确率逐渐增加，信噪比为0 dB 以上时，SC-FDE、SC-TDSS 信号的识别准确率可保持在95%以上，信噪比为5 dB 以上时，4 种信号的分类准确率均达到90%以上；在低信噪比情况下，SC-FDE 和SC-TDSS两类信号的分类准确率明显优于OFDM 和MC-FDSS两类信号。

图8 4 种水声通信信号的分类准确率对比

由此可以得出，本文所提出的UACCMR/TL 网络对于水声通信信号调制具有良好的识别性能，信噪比越高，识别性能越好，低信噪比时识别率下降，但0 dB 时仍可以保持84.4%的识别率。在低信噪比环境下，识别性能表现出较明显差异，对于单载波信号的识别性能优于多载波信号。

为了评估本文提出的UACCMR/TL 网络的水声信道泛化性能，首先采用信噪比为5 dB 时水声信道CH1 数据集训练的神经网络模型，评估其在同信噪比下CH1、CH2 和CH3 信道环境上生成的测试集的不同载波调制信号的识别性能。测试结果如图9 所示，可以看出，CH1、CH2 和CH3 信道环境上生成的测试集的整体识别结果分别为93.5%、81.75%和60.62%。同时，从图9 中可以看出，网络对MC-FDSS 信号的识别性能明显优于其他3 种信号，其次是OFDM 信号，说明多载波信号相比于单载波信号在水声信道环境发生变化时的受影响程度更小，更加适应信道环境的变化。

图9 不同信道环境四种水声通信信号的识别性能对比

为了进一步验证迁移学习方法对信道泛化性能的影响，本文以CH1 上训练的模型权重为基础，再利用少量的CH2 和CH3 数据样本进行了模型微调仿真实验，结果如表3 所示。由表3 可以看出，未使用相应通道数据样本进行模型微调时，基于CH1 训练的模型直接用于CH2 和CH3 得到的识别效果较差；而采用少量的CH2 和CH3 样本数据进行模型训练微调后，在CH2 和CH3 识别上均得到了较大的性能提升。不同于初始训练时采用每种信号1 000 张的大量数据，在模型微调时，只采用少量的信号时频图（50 张，为初始训练集数据的5%），便可得到有效的识别效果提升。由此可以看出，本文所提出的UACCMR/TL 网络在已有信道样本训练模型的基础上，可利用较少量的不同信道样本数据达到不同信道环境下的高分类性能，有效提升UACCMR/TL 网络的信道泛化性能。

表3 基于少量数据样本模型微调的不同信道识别性能对比

4 结论

针对多制式水声通信信号的信号调制方式自动识别需求，本文提出了一种基于时频分析和迁移学习的水声通信信号载波调制方式识别方法。为了突出信号特征差异，采用时频分析方法将水声通信时间序列信号转换为时频图像，将水声通信信号调制识别问题转化成为图像识别问题；为了充分利用图像识别领域性能优异的深度学习模型，采用迁移学习将图像识别领域深度学习模型VGG16 应用到水声通信信号调制识别，具体采用归纳式迁移学习方式。仿真结果表明，所提出的基于时频分析和迁移学习的水声通信信号载波调制方式识别方法对SC-TDSS、SC-FDE、OFDM 和MC-FDSS 信号具有良好的识别性能，且该方法可以在不同信道环境较少数据样本模型微调下达到良好的识别性能，表明该方法具有良好的信道泛化性能。本文工作为水声通信信号的信号调制方式识别提供了一种有效探索，可应用于智能多制式自适应水声通信技术领域；同时，也为时间序列信号的深度学习网络设计提供了一种参考方案。