APP下载

基于SPRRD-ShuffleNetV2的GF-2图像茶种植区快速提取方法

2022-10-13张世超王常颖李劲华张志梅

遥感信息 2022年4期
关键词:池化种植区卷积

张世超,王常颖,李劲华,张志梅

(青岛大学 计算机科学技术学院,山东 青岛 266071)

0 引言

茶作为一种植物饮料,因含有多种营养物质,已经成为世界上最大众化、最健康的绿色饮料。改革开放40年来,我国茶产业规模、效益、质量均显著提高[1],因此,茶种植区的监测工作对我国经济发展具有重要意义。

对于茶种植区的大范围监测,现在依然以人工野外勘测方法为主,然而这种方法不能及时有效地获取茶种植区空间分布信息。遥感技术可以准确、及时获取信息,因此使用遥感监测的方法实现对茶种植区的自动提取是可行的。然而,由于茶树在光谱特征上与其他农作物种植区的相似性,导致茶种植区的遥感识别工作具有比较大的难度。目前,基于遥感影像的农作物提取方法的研究多以常规作物为主,例如水稻、小麦、棉花、玉米等,而对茶种植区的提取研究却比较少。因此,利用遥感技术实现对茶种植区的高精度提取,实现对茶种植区域的大范围监测,具有一定的价值与意义。

遥感技术已经被广泛应用于大量常规农作物的提取研究中。按照分类单元的不同,目前的研究成果主要可以分为两种:基于像元的提取方法和面向对象的提取方法。基于像元的提取方法以每个像素点为单位,然后结合像素点的光谱特征,判断每个像素点是否属于目标区域。任传帅等[2]使用随机森林算法对香蕉林进行提取;黄健熙等[3]利用GF-1 WFV数据实现了玉米与大豆的提取;Ma等[4]提出了一种基于主成分等距分块的无监督农作物分类方法。面向对象的方法首先需要对遥感影像进行分割,形成影像对象,然后以这些影像对象作为分类单元进行分类识别。姬旭升等[5]探究了面向对象技术结合不同算法的作物识别精度;周静平等[6]采用面向对象和决策树相结合的方法提取了作物分布信息。以上方法大都先需要人工提取像元或者影像对象的特征,再使用机器学习分类器进行分类识别。

随着深度学习技术的日益成熟,越来越多的研究人员开始探索使用神经网络进行遥感图像农作物提取。Zhou等[7]提出了一种基于深度学习的时间序列分析方法;Jiang等[8]利用卷积神经网络模型提取增强植被指数时间序列曲线的特征进行水稻识别。这些基于深度学习的方法在对农作物进行大面积的监测与管理方面做出了卓越的贡献。

也存在少量研究人员对遥感图像茶种植区的提取进行了研究。徐伟燕等[9]使用ZY-3遥感数据,同时提取多种特征,使用决策树和NN分类器实现了茶种植区的提取;马超等[10]提取了中尺度光谱和时序物候特征,并结合决策树模型实现茶园提取。这些茶提取方法通过人工设计特征,然后使用传统的机器学习分类器进行分类识别,取得了一定的成效,但精度方面依旧无法达到令人满意的结果,并且提取速度也比较慢。

本文针对茶种植区离散分布的特点,以及不同茶种植区之间的尺寸差异(小面积的茶种植区一般低于0.001 km2,大面积的茶种植区一般高于0.08 km2),提出一种新颖的语义分割模型SPRRD-ShuffleNetV2用于高分辨率遥感图像茶种植区快速提取。实验结果表明,SPRRD-ShuffleNetV2在推理速度具有明显提高的情况下,依然较为精确地识别了茶种植区,甚至与部分对比算法相比,在精度上也有所提高。

1 研究方法

1.1 网络总体结构

本文以提高高分辨率遥感图像上茶种植区提取速度为主要目的,提出一种新颖的语义分割模型SPRRD-ShuffleNetV2,其总体结构如图1所示。

图1 网络总体结构

首先,以去除了最后1×1卷积层、全局池化层和全连接层的ShuffleNetV2[11]网络作为编码器,并增加解码器以实现像素级分类。然后,将高层特征送入混合池化模块(mixed pooling module,MPM),将低层特征送入增强条纹池化模块(improved stripe pooling module,I-SPM)。接着,在处理后的高低层特征逐点相加后,将其送入残差优化块(residual refinement block,RRB)。最后,进行8倍上采样,将特征图恢复到与输入图像相同尺寸,获得最终预测结果。

1.2 ShuffleNetV2主干网络

ShuffleNetV2是一种推理速度极快的轻量级网络,其考虑了4个影响速度的因素:①卷积层输入通道数和输出通道数相同时,模型速度最快;②过多的组卷积会使模型变慢,应避免使用组卷积;③模型分支越少,速度越快;④逐点相加会使模型速度变慢,应减少逐点相加操作。

ShuffleNetV2设计了两种构建块。当不改变特征图尺寸时,首先,使用通道分离操作将特征图均分成两组,其中一组特征图依次经过1×1卷积、3×3深度卷积和1×1卷积;然后,与另外一组特征图沿着通道维度进行拼接;最后,进行通道混洗加强不同组间的信息交流。当缩小特征图尺寸时,首先,输入特征图被送入两个分支,一个分支包含1个步长为2的3×3深度卷积和1个1×1卷积,另一个分支包含2个1×1卷积和1个3×3深度卷积;然后,两个分支输出沿着通道维度进行拼接;最后,进行通道混洗加强不同组间的信息交流。

SPRRD-ShuffleNetV2的主干网络为去除了原始ShuffleNetV2中最后的1×1卷积层、全局平均池化层和全连接层后的剩余部分,其结构如表1所示,其中stage2、stage3和stage4中使用的均为上述两种构建块。

表1 ShuffleNetV2结构

1.3 条纹池化

考虑到高分辨率遥感影像中茶种植区域离散分布的特点,本文引入条纹池化(strip pooling,SP),并基于条纹池化的思想引入了I-SPM和MPM用于改善模型性能,由于二者的轻量化设计,因此不会带来过多的参数量增加。与普通的空间池化采用正方形的池化核形状不同,SP采用1×N或者N×1的池化核形状,因此,可以在一个空间维度上聚合全局上下文信息,而在另一个空间维度上聚合局部上下文信息,避免了空间池化可能带来的不相关区域影响最终预测结果的问题。

水平方向的平均条纹池化(average strip pooling,ASP)和最大条纹池化(max strip pooling,MSP)输出表达如式(1)和式(2)所示。

(1)

(2)

式中:Fi,j为特征图上位置(i,j)处的值;W为特征图的宽。

竖直方向的ASP和MSP输出表达如式(3)和式(4)所示。

(3)

(4)

式中:H为特征图的高。

1.4 增强条纹池化模块

I-SPM用于捕获长距离依赖关系,其结构如图2所示。与条纹池化网络(strip pooling network,SPNet)[12]中的条纹池化模块仅采用水平和竖直方向上的ASP不同,I-SPM同时采用了ASP和MSP两种操作。具体操作过程如下:输入F为形状为H×W×C的张量,对其进行水平方向和竖直方向的ASP和MSP操作后,获得2个形状为H×1×C和2个形状为1×W×C的张量,即Fh-asp、Fh-msp、Fv-asp和Fv-msp。将Fh-asp和Fh-msp送入3×1卷积,将Fv-asp和Fv-msp送入1×3卷积,对4个输出进行上采样后获得4个形状为H×W×C的张量。进行逐点相加后,依次经过1×1卷积和sigmoid激活后得到的输出与模块的输入F进行逐点相乘,获得I-SPM的最终输出Foutput,表达如式(5)所示。

Foutput=F⊗σ(f1×1(fu(f3×1(Fh-asp))+
fu(f3×1(Fh-msp))+fu(f1×3(Fv-asp))+
fu(f1×3(Fv-msp))))

(5)

式中:σ代表sigmoid函数;f3×1代表3×1卷积;f1×3代表1×3卷积;f1×1代表1×1卷积;fu代表上采样操作;⊕代表逐点相乘。

图2 I-SPM结构

1.5 混合池化模块

MPM进行全局和局部上下文信息聚合,其结构如图3所示。

图3 MPM结构

对于全局上下文信息,MPM通过使用水平方向和竖直方向的ASP捕获全局上下文信息。首先,对于给定的输入F,对其进行水平方向和竖直方向的ASP;然后,对两个输出分别进行3×1卷积和上采样操作、1×3卷积和上采样操作;最后,将两个分支的输出进行逐点相加组合在一起获得该子模块的输出F1,表达如式(6)所示。

F1=fu(f3×1(fh-asp(F)))+fu(f1×3(fv-asp(F)))

(6)

式中:f3×1代表3×1卷积;f1×3代表1×3卷积;fu代表上采样操作;fh-asp代表水平方向的ASP;fv-asp代表竖直方向的ASP。

对于局部上下文信息,采用普通的空间池化是必不可少的,因此采用一个轻量级的金字塔池化子模块对局部上下文信息进行聚合。其共有3个分支,其中前两个分支分别含有一个平均池化操作(采用不同池化核大小)、一个3×3卷积操作和一个上采样操作;第3个分支包含一个3×3卷积操作。将3个分支的输出进行逐点相加组合在一起获得该子模块的输出F2,表达如式(7)所示。

F2=fu(f3×3(fap(F)))+fu(f3×3(fap(F)))+
f3×3(fap(F))

(7)

式中:fap代表平均池化;fu代表上采样操作;f3×3代表3×3卷积。

两个子模块的输出分别经过3×3卷积后拼接在一起,然后采用1×1卷积恢复通道数,最后与输入张量F进行逐点相加后,获得MPM最终输出Foutput,表达如式(8)所示。

Foutput=F+f1×1(f3×3(F1)⊕f3×3(F2))

(8)

式中:⨁代表拼接操作;f1×1代表1×1卷积;f3×3代表3×3卷积。

1.6 残差优化块

许多研究工作通过增加残差单元增强语义分割网络的性能,例如全局卷积网络(global convolutional network,GCN)[13]采用残差单元细化边界,进而获得更为精细的轮廓,这些模型中的残差单元本质上就是ResNet[14]中的残差块。SPRRD-ShuffleNetV2中同样加入RRB用于细化输出特征,其结构如图4所示。

对于给定的输入F,采用1×1卷积减少通道数后进行批量归一化,后面跟有一个标准的ResNet中的残差块结构。

2 数据描述与实现设置

2.1 数据集及预处理

本文选用GF-2图像作为实验数据源。首先,对图像进行预处理,预处理内容包括辐射定标、大气校正、几何校正、正射校正和图像融合,最终获得空间分辨率为1 m的多光谱图像,并使用ENVI 5.3软件进行标签的制作。为了防止空间结构的损失以及计算资源的限制,实验中选用256像素×256像素大小的图像块来训练网络,原始图像块数量为1 240个,并采用旋转、水平、垂直、翻转等操作进行数据增强,最终获得10 400张训练图像和2 000张验证图像。

2.2 实现设置

实验使用TensorFlow+Keras深度学习框架。硬件设备为Intel(R)Xeon(R)Gold 6130 CPU 2.10 GHz,384 GB内存,同时使用一块显存为32 GB的Nvidia Tesla V100-PCIE GPU进行加速。

实验中,批量大小被设置为8,迭代轮数被设置为60。在模型训练过程中,采用Adam优化器,β1为0.9,β2为0.999,并采用“poly”学习率衰减策略在训练过程中动态调整学习率,当前学习率currentLR的计算如式(9)所示。

(9)

式中:baseLR为初始学习率,设为0.001;power为衰减参数,设为0.9;iter为当前迭代次数;max_iter为最大迭代次数。

使用的损失函数为交叉熵函数,其表达如式(10)所示。

(10)

式中:li为像素点i的one-hot编码后的真实标签;li[k]为li中的第k个元素值;pk,i为像素点i属于第k类的输出概率;K为类别总数;N为批量图像中所有像素点的总数。

3 实验结果与分析

3.1 消融实验

为验证RRB、MPM和I-SPM的有效性,本文进行了消融实验。结果显示,当同时使用3个特殊处理模块时,能够更加精准地识别茶种植区域,表2提供了消融实验结果。当3个处理模块均不使用时,去除了最后1×1卷积层、全局池化层和全连接层的ShuffleNetV2被用作基础网络,然后将高层特征图进行4倍上采样后与低层特征图相加,再进行8倍上采样输出最终分割结果。首先,评估了基础模型的性能,F1分数可以达到91.7%;然后,增加RRB对输出特征进行优化后,F1分数提高了0.8%;接着,增加I-SPM捕获长距离依赖关系后,F1分数再次从92.5%提高到93.3%;最后,增加MPM用于全局和局部上下文信息聚合后,F1分数提高了0.7%。这些数据充分说明了3个轻量级模块提高模型性能的有效性。

表2 消融实验结果

3.2 茶种植区提取对比实验

本文使用SPRRD-ShuffleNetV2、FCN8s[15]、SegNet[16]、UNet[17]、DeepLabV3+[18]、BiSeNet[19]和DANet[20]进行茶种植区取提取实验,其中DeepLabV3+主干网络采用Xception,BiSeNet上下文路径采用的网络为ResNet101,茶种植区提取实验结果如图5所示。

图5 茶种植区提取实验结果

表3展示了所有方法的细节配置,包括参数量、训练时间和推理时间,表4提供了所有方法茶种植区提取的精度评价结果。通过分析表3、表4得到以下结论:SegNet仅仅简单地利用低分辨率的特征图,通过上采样操作将其恢复到与输入图像相同尺寸后,产生最终的预测结果;FCN8s和UNet则仅采用跳跃连接的方式将不同层级的特征进行融合;这3种模型相对于其他模型而言,结构比较简单,精度和提取速度均低于SPRRD-ShuffleNetV2。DeepLabV3+使用空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)模块来聚合多尺度上下文特征,并采用跳跃连接的方式将高低层特征进行融合,但面对高分辨率遥感影像中复杂的场景,依然存在较多的错分,提取精度方面相较于FCN8s、UNet和SegNet提升不多,精度和提取速度依然低于SPRRD-ShuffleNetV2。DANet基于自注意力机制设计了双注意力模块,有效地对空间依赖关系和通道依赖关系进行捕获;DANet拥有较高的提取精度,但训练时间和推理时间均比较高,难以达到快速提取茶种植区的效果。BiSeNet设计了一个双边网络结构,其包括空间路径和上下文路径,分别用于提取空间细节信息和上下文信息,并且在上下文路径中使用了通道注意力模块用于优化输出特征,最后通过一个特殊的特征融合模块将两个路径最终的输出特征整合在一起;BiSeNet在提取精度方面同样取得了不错的效果,提取速度也要快于DANet,但与SPRRD-ShufflNetV2相比,提取速度方面依旧有较大差距。综上所述,SPRRD-ShuffleNetV2在所有算法中提取速度是最快的,并且精度方面也要优于FCN8s、UNet、SegNet和DeepLabV3+,实现了提取精度和速度兼具的效果。

表3 所有方法的细节配置

表4 所有方法茶种植区提取的精度评价结果 %

4 结束语

本文为了在保证提取精度能达到基本实际需求的前提下有效提高高分辨率遥感图像茶区提取速度,提出一种基于SPRRD-ShuffleNetV2的GF-2图像茶种植区快速提取方法。该模型针对茶种植区离散分布的特点,以及不同茶种植区之间的尺寸差异,首先,以去除了最后1×1卷积层、全局池化层和全连接层的ShuffleNetV2网络作为编码器,并增加解码器以实现像素级分类;然后,在几乎不增加参数量、不影响推理速度的前提下,在编码器部分增加I-SPM和MPM,用于捕获全局和局部依赖关系;最后,在解码器部分增加RRB,用于优化输出特征。实验结果表明,该方法能够实现提取精度和速度兼具的效果。

猜你喜欢

池化种植区卷积
基于高斯函数的池化算法
基于全卷积神经网络的猪背膘厚快速准确测定
基于Landsat-8遥感数据的冬小麦种植区地表蒸散量时空分布研究
基于波段增强的DeepLabv3+多光谱影像葡萄种植区识别
卷积神经网络中的自适应加权池化
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
用于手写汉字识别的文本分割方法