基于改进ResNet网络的复数SAR图像舰船目标识别方法

2022-11-19冷祥光周晓艳孙忠镇计科峰

系统工程与电子技术 2022年12期

雷禹, 冷祥光, 周晓艳, 孙忠镇, 计科峰

(国防科技大学电子科学学院, 湖南长沙 410073)

0 引言

合成孔径雷达(synthetic aperture radar,SAR)采用微波相干成像,因此SAR图像本质上是复值的[1]。在像素信息量上SAR图像更加丰富,这也是其和普通光学红外遥感图像显著不同之处。同时,SAR可以获取全天时、全天候的二维高分辨图像,能够有效解决光学卫星在夜间和不良气候下无法对海洋目标监视的问题,是目前世界各国进行海上目标监测的重要手段[2-3]。

在SAR图像中,对海上的舰船目标识别是SAR舰船图像信息解译的重要组成,也是多卫星协同海洋监测中一个重要环节。舰船目标识别的目的是判断出舰船所属类别,在军事上可以用于分析军事行动和进行军事侦察,及时获取海上作战的相关军事情报。在民用领域上可以应用于监视海运交通、维护海洋权益等方面。相比于SAR图像舰船目标检测,利用SAR图像进行舰船目标识别的相关研究起步较晚,因此具有重要的研究意义[4]。

当前SAR图像舰船目标识别方法可以总结为:① 基于有效特征提取的识别方法。通过提取有效特征可以从不同角度描述图像中目标特性,再选择有效的分类方法进行目标识别。目前特征表达方法主要分为空间特征、统计特征、变换域特征和代数特征[5]。② 基于特征融合的识别方法。通过特征融合可以增加图像的特征信息,实现更加全面的特征表达[6]。③ 基于模型匹配的识别方法。根据训练图像获取模型预测特征,再通过匹配模型的预测特征和图像的提取特征来实现目标识别。④ 基于SAR成像原理和地物电磁散射机理的识别方法。使用目标的强散射信息[7]、SAR数据中方位不变性等特征[8]来提高分类识别精度。⑤ 基于深度学习的识别方法。随着深度学习方法的快速发展,已经被广泛地应用到目标识别的领域中,通过使用无监督[9]或监督学习方法的机器学习特征建立低级特征和高级语义之间的关系，大大提升了目标识别的准确性,也充分体现了深度学习在目标识别中的巨大优势和潜力。

近年来,卷积神经网络(convolutional neural networks, CNN)、全卷积网络(fully convolutional networks, FCN)等深度学习框架用于SAR图像目标识别中,都取得了较好的结果。但目前应用于SAR图像识别的深度学习框架,都是针对其幅度信息。并且大多数学者在采用深度学习方法对SAR图像进行研究时,认为其包含的相位信息服从均匀分布因此不具有有用信息,故将其当作光学图像对待,只研究幅度信息。例如，在对OpenSARShip数据集进行舰船目标识别[6,10]时多采用的是地距多视(ground range detected,GRD)产品,在对斜距单视复数(single look complex,SLC)产品也只是将其转换为幅度图去使用,从而忽略了SAR图像特有的复数信息。

但复数相比较于实数而言具有较好的表征能力和泛化特性[11-12]。近些年发表的文章，也表明了复数信息在语音识别、图像分类识别以及自然语言处理方面具有非常好的性能[13-15]。El-Darymli等[16-17]对复数SAR图像目标分类问题的研究也证明了复数信息对SAR图像解译的重要性。研究发现，随着SAR图像分辨率的提高,完全发展的相干斑的部分假设条件并非严格成立,对此SAR图像中的复数信息可以有助于更加完整地描述舰船目标,对提升复数SAR图像舰船目标识别能力和检测性能具有重要作用[1]。

本文在舰船目标识别应用中考虑到SAR图像的本质特征,首先进行输入层隐式复数信息增强,将SAR图像的实部、虚部和幅度三通道信息进行组合,使输入数据包含复数信息表示。其次,在ResNet18网络的基础上进行改进,通过引入通道注意力机制使网络可以自适应学习到实部、虚部和幅度三通道之间的复数信息。再次,针对复数数据集样本较少，可能在网络训练过程中出现过拟合现象,引入标签平滑正则化(label smoothing regularization, LSR)可以有效抑制过拟合问题。最后进行相关实验,验证了本文方法的有效性。

本文内容将按照4个小节进行展开:第1节介绍本文所提出的方法,详细介绍了输入层隐式复数增强,引入通道注意力机制和标签平滑正则化改进网络的方法与原理;第2节为实验数据与配置;第3节为实验结果与分析,在OpenSARShip数据集上进行实验,并与经典神经网络方法进行对比分析;第4节对本文内容进行总结。

1 基于改进网络的复数SAR图像舰船目标识别方法

本文所提出的基于改进网络的复数SAR图像舰船目标识别方法的整体架构如图1所示。其主要分为4部分:第1部分是输入层隐式复数信息增强,将SAR图像的实部、虚部和幅度三通道信息进行组合,增加复数信息表示;第2部分是基于ResNet18网络引入通道注意力机制,使网络能够自适应学习三通道之间的复数信息。第3部分是引入LSR,解决因复数数据集样本少出现的过拟合问题。第4部分是获得识别结果。

图1 本文方法整体架构图

1.1 输入层隐式复数信息增强

目前绝大多数的研究者直接将基于深度学习的光学图像处理方法迁移到SAR处理中,该方法只应用了SAR图像的幅度信息而忽略了复数信息。但是,SAR图像复数信息中包含了更丰富的目标特征信息[18],可用复数形式表示:

(1)

式中：i为实部；q为虚部； j为虚部单位；A为幅度；φ为相位信息,φ=arctan(q/i)。

在本文方法中从SAR图像的本质出发,通过组合SAR图像的实部、虚部和幅度三通道信息,隐式地提供了输入数据复数信息表示。其实现过程由图2所示。

图2 输入层隐式复数信息增强

本文提出了3种输入层隐式复数信息增强方式:第1种方式是将复数SAR图像中的实部i、虚部q和幅度A三通道信息直接进行组合,并保留其16位原始灰度,可以表示为

Z1=[iq;A]

(2)

第2种方式在第1种方式的基础上进行处理,将数据的像素值缩放到0～255区间,如下所示：

(3)

式中：Z1_pixel表示第1种增强方式输入数据的像素值。

考虑到负数像素值的影响,第3种方式是将第1种处理方式的实部i、虚部q分别加上绝对值处理再与幅度A进行组合,并保留其16位原始灰度,可以表示为

Z3=[|i|; |q|;A]

(4)

图3为3种输入层隐式复数信息增强方式的可视化过程，展示了货轮在3种增强方式下的实部图像、虚部图像和幅度图像,以及复数信息增强图像。3种增强方式下对幅度图像的处理方式相同。在实部与虚部的处理上,第1种增强方式Z1最大程度保存了像素值,实部和虚部中含有复数像素值。第2种增强方式Z2按照传统图像处理方法将像素值缩放到0～255区间,将小于0的像素值统一变为0，在图像中显示为黑色。所以可以观察到第2种方式下的实部与虚部图像的颜色更深,但相较于第1种增强方式的实部和虚部图像像素信息有一定损失。第3种增强方式Z3考虑到负数像素值的影响,并保证可以最大程度利用复数信息,加绝对值处理后将负数像素值变为正。通过观察可以发现，第3种增强方式下实部和虚部图像相较于前两种可以更好表示出舰船目标信息。通过图3总体可以观察到实部图像、虚部图像和幅度图像之间具有差异性,实部和虚部图像展示出了舰船目标不同的细节信息。所以,将复数SAR图像的实部、虚部和幅度三通道信息进行组合,可以更好利用复数信息的细节表示,在复数层面更加完整地描述舰船目标。

图3 输入层隐式复数信息增强可视化过程

进行图像预处理过程通常会对数据进行标准化处理,使得输入网络的数据呈现一个稳步的分布。其优势是一方面可以提升模型的精度,提高分类器的准确性;另一方面可以加快梯度下降的求解速度,加速模型收敛。但是目前在使用深度学习方法处理SAR数据时,经常直接使用由Imagenet数据集的百万张图像计算得到的均值和标准差进行标准化处理,而忽略了SAR数据集与Imagenet数据集在数据集大小、成像模式等方面的不同。因此，本文对复数信息增强的输入数据使用标准分数方法进行标准化处理,由方差公式可得

(5)

(6)

因此，标准分数方法的过程可表示为

(7)

依据上述公式,本文所实现的标准化过程只需要通过遍历一次数据就可以获得数据集均值和标准差,避免了占用内存过大的问题,大大缩短了用时。

1.2 引入通道注意力机制的改进ResNet18网络

典型的分类识别网络通过提取卷积层和池化层所融合的空间和通道信息特征对输入的图像进行识别。在提高网络性能时,可以通过构建深层的网络结构或者引入某些机制来增强网络提取特征的能力。ResNet网络在2015年由何凯明提出,以top1误差为3.6%的图像识别记录获得了2015年ImageNet大规模视觉识别竞赛比赛的冠军[19]。并且目前的研究发现，通过在网络中引入注意力机制[20-22],可有效保留图像中有价值的特征信息。

因此,本文在ResNet18网络的基础上引入压缩-激励(squeeze-and-excitation, SE)通道注意力机制模块来提升网络对通道特征的敏感度。通过对输入数据的实部、虚部和幅度三通道进行权重调整,可以实现自适应关注各通道的有用特征和学习三通道之间的复数信息。图4为改进的ResNet18的网络结构图。

图4 改进的ResNet18的网络结构图

图5 SE通道注意力模块结构图

压缩操作过程如图5中红色框所示,这个过程对应一个全局平均池化的操作,可以将全局空间信息压缩到一个通道描述中。激活操作如图5蓝色框所示,包含两个全连接层。第1个全连接层可以看作为一个降维率为r的降维层,将压缩操作获得的结果降低维度变为C/r维向量,其中降维率r为一个固定的超参数,影响网络中SE通道注意力机制模块的容量和计算开销。第2个全连接层将维度恢复为C维向量。最后通过sigmoid函数获取各通道的权重。故通过SE通道注意力机制会保留特征图中与权重值为1或接近1相乘的信息,而抑制与权重值小于1进行相乘的信息,从而实现强化特征的效果。本文的网络结构分为5层,SE通道注意机制加在层2～层5结构中,对每层结构的输出进行结构图的可视化,如图6所示,可知加入通道注意力及之后,网络开始更加关注舰船目标的特征信息。

图6 特征可视化

1.3 标签平滑正则化

通常图像的分类识别网络结构的最后一层为全连接层,数据标签会以one-hot形式进行编码,再通过交叉损失函数进行参数调整。这时损失函数可以表示为

(8)

式中：K表示类别数目；k表示样本数据集中某一类别标签;p(k)为预测分布;q(k)为标签分布。在训练过程中,希望交叉损失函数可以尽可能小来更新权重参数,得到最好的训练模型。这个过程通过softmax函数使得预测分布p(k)输出的预测置信度分数接近1,但是这个过程会使得正确标签的概率远远大于错误标签的概率,导致模型的泛化能力低,出现对标签过分相信而产生的过拟合问题。

本文方法在实验中考虑到所用的复数数据集样本和类别较少的情况,为避免在训练过程中出现过拟合现象,在模型训练中加入了LSR,首次提出是用于训练Inception-v2[24]。

LSR[25-26]通过改变真实标签的概率分布,加入一个超参数ε来修正标签分布q′(k),其中y为真实标签数:

(9)

这时损失函数变为

(10)

因此,最优的预测概率分布z′(k)可以表示为

(11)

式中：α可以为任意实数。

所以，LSR可以保证错误标签的概率不为0,从而实现对模型的约束,防止正确标签的概率远远大于错误标签的概率,从而降低过拟合现象。

2 实验数据及配置

2.1 实验数据

本文实验所采用的数据是由上海交通大学在2017年和2018年发布的OpenSARShip数据集及其2.0版本[27-28]。该数据集是在Sentinel-1图像上采集的,包含地距多视产品和斜距单视复数产品,具有VV极化和VH极化两种方式。

本文主要选用OpenSARShip数据集中SLC模式和VH极化方式,该模式下SAR图像包含复数信息,舰船数目统计如图7所示。从图7中可以看出，该数据集具有样本不均衡的问题,当训练样本不均衡时分类器会将分类边界偏向少数的样本目标,这样就会导致少数样本目标几乎都被错误地识别为数目较多的样本目标,深度学习无法训练出较好的模型[29]。本文希望可以更好探究针对复数信息改进神经网络方法的性能,因此选择其中数目较多的两类舰船目标货船和油船进行研究,将数目较少的舰船目标进行舍弃,并对两类舰船目标进行了筛选和数量上均衡,两类目标数量分别为760和756,并将每类舰船随机划分为训练集和测试集,划分比例为9∶1。

图7 舰船数目统计图

2.2 实验配置

本实验的电脑环境为64位Windows10系统,编程语言为python,深度学习框架为Pytorch。硬件采用AMD Ryzen 7 4800HS with Radeon Graphics @ 2.90 GHz,内存为8G,显卡为GeForce GTX 1660Ti,采用CUDA10.0和CUDNN7.5.1加速计算。实验超参数设置如表1所示。

表1 模型超参数设置

3 实验结果与分析

3.1 评价指标

为验证本文实验的有效性,采用混淆矩阵,准确率和精确率进行评估。其中,混淆矩阵可以直观展示舰船目标被正确分类识别的个数。并通过混淆矩阵可以进一步计算准确率Accuracy。Accuracy是指分类模型判断正确结果的占比,可以反映分类器对整个样本的判定能力。

(12)

式中：TP、FP、FN、TN分别表示为真正例、假正例、假负例和真负例。

精确率Precision用来计算每一类舰船的分类精度:

(13)

3.2 输入层隐式复数信息增强实验结果分析

首先对3种输入层隐式复数信息增强的输入数据Z1、Z2和Z3进行实验探究,寻找最优的增强方式。并在实验中增加了一组只保留幅度通道信息的SAR图像数据,可以表示为Z4=[A],来验证复数信息在舰船目标识别中的有效性。

实验中将复数增强的输入数据Z1、Z2和Z3在VGG (visual geometry group) 16Net网络、GoogleNet网络和ResNet18网络等经典的神经网络上进行实验对比。实验结果如表2所示。

表2 输入层隐式复数信息增强实验结果

通过表2的实验结果可以发现,本文中所提出的第3种输入层隐式复数信息增强方式在3种网络上皆取得了最高的准确率。对于第1种增强方式,直接将数据中的实部与虚部进行组合的目的是希望可以最大程度上利用到复数信息,但在实验过程中发现这样的组合可能存在像素值正负抵消的问题,导致重新组合的三通道信息并不能很好地表示舰船目标,在识别效果上并没有得到提升反而下降。第2种增强方式是在第1种方式的基础上进行处理,将数据的像素值缩放到0～255区间,可以发现识别效果相较于第1种增强方式有了一定提高。考虑到负数像素值的影响,第3种增强方式在处理过程中进行了绝对值处理,来保证数据组合中加入的实部和虚部信息是加强作用的,并保留原始16位灰度,这样可以大大减少对数据像素信息的损失。实验验证也说明了第3种增强方式效果好于其他两种增强方式。

其次为验证复数信息可以增强数据信息表示,本文在VGG16Net网络、GoogleNet网络和ResNet18网络对单通道幅度SAR图像数据Z4和复数信息增强的输入数据Z3进行实验。通过表2可以看出,使用输入数据Z3在整体识别准确率上可以提升1%～2%,这表明将复数SAR图像的实部、虚部和幅度通道进行组合,可以在幅度信息的基础上增加复数信息提供的细节信息,更加完整地表示舰船目标,有利于提高舰船目标识别的准确率。

3.3 改进网络实验结果分析

为验证本文改进网络的有效性,本文设计了两组实验。第一组实验是在VGG16Net网络、GoogleNet网络、ResNet18网络和本文改进网络上使用复数信息增强的输入数据Z3进行实验对比。第二组实验考虑到深度学习往往需要大量的样本进行训练[30],因此在复数信息增强的输入数据Z3和单通道幅度SAR图像数据Z4上进行数据增强,来增加数据量进行扩展实验,在ResNet18网络和本文改进网络上进行实验对比。数据增强时为保证尽可能减少对数据信息的损失和改变,本文方法只使用了翻转变换,将图像沿着水平和垂直方向翻转,此时货船数据量变为2 741,油船数据量变为2 268。

第一组实验结果如表3所示,可以看出本文改进网络比VGG16Net网络的识别效果提升4.8%,相较于GoogleNet网络的识别效果提升6.0%,相较于ResNet18网络的识别效果提升1.5%。表明本文改进网络中的通道注意力机制可以通过调整3个通道之间的权重,使网络自适应学习三通道之间的复数信息,更加关注到舰船目标的完整信息,抑制了背景信息。同时,使用LSR解决了因复数数据样本较少出现的过拟合问题,加强了网络学习显著性特征的能力,最终使得本文方法优于其他方法。当数据集类间差异大且类内差异小时会获得比较好的结果。通过对数据中货船和油船进行分析,发现货船相较于油船在长度和型号等具有多样性,类内分布差异更大。因此,表现在网络上的识别效果提升不明显。