一种基于集成卷积神经网络的SAR图像目标识别算法*

2023-12-25李汪华张贞凯

电讯技术 2023年12期

李汪华,张贞凯

(江苏科技大学海洋学院,江苏镇江 212100)

0 引言

合成孔径雷达(Synthetic Aperture Radar,SAR)[1]是一种主动式微波传感器,因其具有全天时、全天候、高分辨成像等特点,已被广泛应用在现代军事和国防安全等众多领域中。自动目标识别(Automatic Target Recognition,ATR)[2]技术致力于从传感器信号中提取信息和实现目标类别鉴定,也是实现SAR图像解译的重要组成部分。在早期的SAR ATR研究中,常用的是基于模板的方法和基于模型的方法[3]。但由于分类准确率十分依赖于构建的特征库或模型库,所以此类方法鲁棒性不强,泛化能力差。

近年来,随着人工智能技术的快速发展,将深度学习应用到SAR ATR领域,已经成为了SAR图像目标识别技术研究的热点。由于卷积神经网络(Convolutional Neural Network,CNN)具有独特的特征提取方式,因而具有了强大的模式捕获能力,在SAR图像目标识别任务中已经取得了一定的成功。文献[4]提出了将CNN和卷积自编码器相结合的识别方法,大幅降低了算法的时间复杂度且没有降低识别精度。文献[5]提出了将CNN和支持向量机(Support Vector Machine, SVM)结合的 SAR图像目标识别方法,具有较准确的识别率和较好的鲁棒性。

然而,现有的基于CNN的目标识别方法在网络结构优化设计上还存在一些不足,例如:文献[6]提出了一种基于多特征聚合的CNN网络架构,虽然能够在数据量较少时获得较好的识别精度,但是特征提取步骤繁琐,耗时长;文献[7]为了减少自由参量,使用稀疏连接层代替全连接层设计了一款全CNN算法,既减少了训练数据的规模,又提高了识别精度,但该网络结构的噪声鲁棒性较差,泛化能力较弱;文献[8]采用并联的卷积神经网络以不同的尺度同步提取图像特征,能从多方面刻画目标并提高分类精度,但由于数据量较少,易出现过拟合现象。

为了弥补网络结构优化过程中存在的一些不足,并进一步提高SAR图像目标识别的识别准确率和收敛速度,本文提出了一种将改进的卷积神经网络进行集成的SAR图像目标识别方法。为解决SAR图像样本不足的问题,对SAR图像进行了数据增强的操作。为解决模型泛化能力不足的问题,在改进的CNN中引入了Dropout[9]和Padding操作。为减少各CNN网络带来的偏差,提高分类器的泛化能力,通过利用Bagging方法对各改进CNN的初步的分类结果进行集成决策。为提高网络的训练速度与收敛精度,采用Ada_Nesterov动量法对网络进行优化。实验结果验证了本文所提算法的有效性。

1 SAR图像特征提取

1.1 SAR图像预处理

与光学图像相比,SAR图像存在明显的相干斑噪声,因此需要进行适当处理以降低其对识别性能的影响。

本文在TensorFlow平台上对数据集进行预处理。首先采用图像旋转、缩放等几种途径进行数据增强[10],获得了更多的训练样本;然后通过对增强的图像进行裁剪得到了输入大小为128×128的目标切片图像,除以255.0,使图像灰度等级位于[0,1]之间。这些操作不仅减弱了相干噪声的影响,而且提高了模型的泛化能力。此外,为了提高网络训练效率,对输入数据进行批处理,批大小设置为32。

1.2 集成学习

集成学习算法是目前比较流行的机器学习算法之一,一般是先通过某种集成学习算法产生若干个基分类器,再通过某种集成策略对其结合以完成分类识别,能够实现优势互补[11]。

本文采用的集成学习方法是Bagging算法[12],它的思想是从训练集中进行有放回重采样来获得每个基分类器所需要的子训练集,对所有基分类器预测的结果基于某种结合策略产生最终的预测结果。本文采用的集成策略是相对多数投票法[13],它是分类问题中最常用的一种结合策略。个体分类器的输出类型包含类标签和类概率两种,以类标签为基础的投票被称作“硬投票”,以类概率为基础的投票被称作“软投票”。一般情况下,以类概率为基础的集成结合效果更优。Bagging算法原理图如图1所示。

图1 Bagging算法原理图

1.3 CNN基本原理

CNN[14]是一种特殊的多层前馈神经网络,具有强大的特征学习与特征表达能力,主要包括输入层、卷积层、激活层、池化层、全连接层和输出层。

卷积层主要用来提取图像特征。激活层是把卷积层的结果做非线性映射,使得神经网络可以逼近任何非线性函数,赋予了网络非线性的性质,从而可避免线性模型表达不够的问题。常用的激活函数有Sigmoid函数、Tanh函数、ReLu函数等,其中ReLu函数可以避免梯度消失的问题且能有效缓解过拟合问题,因此被广泛应用。池化层主要是对卷积层输出的特征图进行特征选择和信息过滤。通过卷积、非线性和池化等操作,CNN可以从低级特征中分层挖掘出高级特征,从而获得更好的分类识别学习能力。最终通过若干个全连接层完成分类识别任务。

CNN的前向传播是把上一层的输出用作当前层的输入,它的主要作用是对输入图像进行逐层特征提取,如式(1)和式(2)所示:

(1)

(2)

本文激活函数选用ReLu函数,如式(3)所示:

(3)

池化操作选用最大池化,如式(4)所示:

(4)

式中:p1和p2是池化窗口的大小。

Dropout的思想是在网络训练时按照一定概率随机失活部分神经元,它可以有效减少相邻神经元之间的依赖性。采用Dropout后的网络计算公式如(5)～(8)所示:

(5)

(6)

(7)

(8)

式中:Bernoulli函数作用是生成r向量,即随机生成一个[0,1]向量;p为Dropout概率。

2 基于集成CNN的SAR图像目标识别算法

本文提出的基于集成CNN的SAR图像目标识别算法的流程框图如图2所示。首先对输入的原始SAR图像数据进行数据增强以达到扩充训练数据集的目的,然后通过有放回的重采样操作从训练集中获得能够输入到各基分类器中的子数据集,接着根据Bagging方法将4个结构不同的卷积神经网络集成,最后基于相对多数投票法进行投票表决,得到目标识别结果。

图2 基于投票法的集成网络模型流程框图

2.1 基于改进CNN的基分类器构建

本文设计了4个10层的CNN架构并分别对其改进,引入Dropout和Padding操作,同时采用Ada_Nesterov动量法作为最小化损失函数的优化算法,以此组成一个Multi-CNN。将构建的4个改进CNN分别命名为CNN1、CNN2、CNN3、CNN4,其中CNN1模型设计如表1所示。

表1 基分类器CNN1网络结构

在CNN1的基础上,通过改变卷积核的尺寸和数目,构建了CNN2、CNN3和CNN4网络模型。CNN2是将CNN1中第6层中卷积核尺寸改为5×5,其他参数不变。CNN3是将CNN1中第4,6,7层中卷积核数目分别改为96,96,48,其他参数不变。CNN4是将CNN1中第4,6,7层卷积核数目分别改为96,64,64,其他参数不变。

2.2 基于Ada_Nesterov动量法的基分类器训练

网络训练的目标是得到最小化损失函数,因此在神经网络的训练过程中,需要使用优化算法来最小化损失函数。本文采用的损失函数为交叉熵损失函数,如式(9)所示:

(9)

式中:zL是Softmax层的输入,由上一个全连接层计算得到;N为类别数。

Adadelta算法具有自适应学习率的功能,它是对AgaGrad算法的一种改进,主要解决了AgaGrad算法在训练后期学习率很小和参数更新时参数不一致的问题[15]。Nesterov动量法[16]虽然能很好地改进梯度下降方向,但是其所有参数都具有一样的学习率,并且需要人为设定。因此,本文在计算Nesterov动量法的梯度下降时引入Adadelta算法的自适应学习率策略,使其同时具有自适应学习率和梯度下降方向准确的能力。本文从两个方面改进参数更新方式,有效避免了陷入局部最优解的问题,提高了网络收敛精度。该算法的更新规则如下:

Require:初始化变量θ,初始化参数E[Δθ2]0=0

Fort=1:T,循环:

训练样本中采用得到的m个小批次样本{x(1)…x(m)},对应目标为y(i)

计算学习率:η=RMS[Δθ]t-1

应用更新:θ←θ+Δθ

End For

2.3 基于相对多数投票法的基分类器集成

为了得到最终的目标分类结果,在各基分类器训练完成后,需要对所有分类器预测结果进行相对多数投票。

(10)

式中:T为基分类器个数。

3 实验结果与分析

3.1 实验设置

为了验证本文所提出方法的有效性,采用了由美国DAPRA发布的MSTAR公开数据集[17]进行性能评估与验证。该数据集包括BMP2、2S1、BTR70、BTR60、BRDM2、T72、T62、ZIL131、D7、ZSU23/4等10类地面军事目标。在本文中,选用标准操作条件(Standard Operation Condition,SOC)下SAR图像进行训练和测试,将17°俯仰角下的图像作为训练样本,15°俯仰角下的图像作为测试样本。SOC下训练与测试目标的类别和数目如表2所示。在SOC条件下对10类地面军事目标进行分类识别,分类评价指标[18]选择总体分类精度(Overall Accuracy,OA)和平均分类精度(Average Accuracy,AA),网络的稳健性选用平均分类精度标准差(Standard Deviation,STD)作为评价指标。所有实验均在配置为Intel(R)Core(TM)i5-6500CPU@3.20 GHz,4.0 GB RAM,NVIDIA GeForce GTX1060 GPU的计算机上完成。

表2 SOC下训练与测试目标类别与数目

3.2 实验结果

3.2.1 实验1:Padding操作对各基分类器网络性能的影响

为了验证在各基分类器中引入Padding操作对各基分类器网络性能的影响,做了对照实验,结果如表3所示。

表3 是否使用Padding操作对各基分类器网络性能的影响

由表3可以看出,在各基分类器中引入Padding操作后,各基分类器的平均分类精度与总体分类精度都有0.5%左右的提高。这是因为引入Padding操作后减少了边缘信息的丢失,进而提取到了更多的图像特征,有效抑制了过拟合。出于综合考量,在设计本文集成网络时,各基分类器中均使用Padding操作。

3.2.2 实验2:Dropout操作对网络性能的影响

为了验证Dropout操作对网络性能的影响,在各基分类器都引入Padding操作的情况下,分别在Dropout概率为0,0.3,0.5和0.7时进行实验,结果如表4和表5所示。

表4 不同Dropout概率对各基分类器AA的影响

表5 不同Dropout概率对各基分类器OA的影响

由表4和表5可以看出,随着Dropout概率的增加,各基分类器的平均分类精度与总体分类精度均是先增加后减小,这也意味着并不是Dropout概率越大越好。当Dropout概率为0.5时,各基分类器的识别率最高且效果最好。这是因为当Dropout概率为0.5时,Dropout随机生成的网络结构最多。故本文在设计集成网络时,各基分类器中Dropout概率均设置为0.5。

3.2.3 实验3:基分类器的有效性验证

为了验证所构建的基分类器的有效性,本文使用每种基分类器重复进行5次实验,分别得到了各基分类器在SOC下的分类识别性能,如表6所示。

表6 各种基分类器在SOC下的识别性能

由表6可以看出,不同的基分类器均有较好的识别效果,并且分类器之间的分类识别性能相差不大。而且,经过反复试验发现,通过对超参数的调整,很难在准确率上再有明显提升。但是,各基分类器的平均分类精度标准差均在0.60左右,这意味着单个网络的稳健性不足,即存在偏向性。

实验过程当中各基分类器的训练及测试损失曲线图如图3～6所示。

图3 CNN1的损失值曲线

图4 CNN2的损失值曲线

图5 CNN3的损失值曲线

图6 CNN4的损失值曲线

由图3～6可以看出,网络在训练前期损失均有快速下降,大概在epoch为20次时开始收敛,且在训练后期损失值波动较小,网络收敛效果较好。

3.2.4 实验4:相对多数投票集成实验

用训练好的基分类器对测试样本进行预测,然后分别以“硬投票”和“软投票”方式对已经训练好的基分类器进行相对多数投票集成,每种投票方式进行5次实验,集成结果如表7所示。

表7 相对多数投票集成实验结果

由表7可以看出,利用相对多数投票法将各基分类器分类结果集成以后的分类精度会有一定的提升。与各个基分类器相比,“硬投票”方式的平均分类精度与总体分类精度均可以提高大约0.15%,“软投票”方式的平均分类精度与总体分类精度均可以提高大约0.23%。从表7实验结果可以看出,集成后的平均分类精度的标准差比各个基分类器的均小。由此可见,集成网络的分类识别性能优于单个卷积神经网络识别性能,并且集成后的网络降低了各基分类器的标准差。

3.2.5 实验5:SOC下的识别性能比较

在MSTAR的SOC下采集的10类目标上,与现有的其他SAR图像目标识别方法进行对比,每种方法重复进行5次实验。文献[19]、文献[6]及文献[8]中的方法分别记为迁移VGG16、MFCNNs、并联CNN,不同方法的对比结果如表8所示。

表8 几种方法在SOC下的识别性能比较

由表8可以看出,本文所提方法的平均分类精度最高,相比迁移VGG16、MFCNNs和并联CNN的平均分类精度分别提高了4.9%,3.78%和0.2%。虽然本文方法对于并联CNN方法平均分类精度提高不明显,但是本文算法的训练时间更短。另外,从表8的实验结果可以看出,相较于几种对比方法,本文所提方法平均分类精度的标准差最小。由此可见,本文提出的集成卷积神经网络可以获得稳健且最优的分类识别性能。

4 结论

本文采用集成卷积神经网络作为SAR图像目标识别的网络架构,通过将各个基分类器的识别结果进行集成决策,可以明显地提高整个网络的识别能力和稳健能力。为了优化所提出的网络,引入了Dropout和Padding操作,并采用Ada_Nesterov动量法作为优化算法,有效抑制了网络的过拟合,提高了网络收敛精度。在MSTAR数据集SOC下的10类目标的实验结果表明,所提方法的平均分类精度达到了99.30%,标准差仅有0.27,有效抑制了过拟合,网络性能较好。