APP下载

顾及多尺度上下文信息的高分影像林地信息提取方法

2022-12-13胡永进高小慧胡耀天

江苏农业科学 2022年22期
关键词:残差林地尺度

胡永进, 韩 旭, 高小慧, 胡耀天

(江苏农林职业技术学院,江苏句容 212400)

林地作为重要的自然资源之一,是国家可持续发展的重要物质基础,掌握林地的准确分布对于林地调查管理具有重要作用[1-2]。随着遥感技术的发展,利用卫星影像对林地资源进行识别、变化检测表现出了极大的应用潜力,这也是当前遥感图像解译中的重要研究课题[3]。

利用遥感影像进行林地解译方法主要分为2类,包括目视解译和计算机解译,其中目视解译即利用人工的方法,通过遥感影像中林地所表达的光谱、形状、纹理等差异直接观察或者借助辅助判读仪器对遥感影像中的林地类别进行判读[4-5]。然而,该类方法耗时耗力、且人工解译的过程不能叠加,知识无法有效积累。此后,随着计算机技术的不断发展,基于计算机技术的遥感影像解译方法得到了更多应用。基于计算机技术的遥感影像林地提取方法可以分为2类,包括传统方法和深度学习[6]。其中,传统方法主要是通过分析林地在遥感影像中的特征表达,如光谱、纹理、形态等特征,并构建预定义模型对林地进行分类。包括基于像元分类的方法、面向对象的方法以及基于机器学习的方法。其中,基于像元的林地信息提取方法主要是通过分析林地光谱特征表达对不同波段进行特征组合,如利用归一化植被指数(NDVI)[7]、比值植被指数(RVI)[8]等植被指数进行林地信息提取。然而单一的色彩空间并不能完整表达林地特征,且高分辨率遥感影像中地物更加清晰,信息更加丰富,同时林地的显示也更加突出和细碎化,多种特征结合的方式很难精确地提取出林地信息。在此基础之上,面向对象的方法逐渐被应用,与像元方式不同,面向对象的林地提取方法是以同质对象作为最小分析单元,通过分析遥感影像中林地的光谱、形状、纹理等多种特征,并借助认知机理来选定这些特征,保证其能够最大程度地区分遥感影像上的林地信息[9-12]。虽然这些方法在林地提取方面都取得了一定的效果,但由于光学遥感影像以非均匀区域的形式表达地物信息,且草地、耕地等光谱特性与林地极相似,从而对林地区域的识别产生干扰。此外,较大的类内方差和较低的类间方差导致无法建立预定义模型,从而实现高精度的林地提取。此后,基于机器学习的方法被用于林地信息的提取,机器学习的方法是通过设计特征提取函数,并利用一定的样本学习进行参数拟合计算样本之间的关联,包括支持向量机(support vector machine,简称SVM)、决策树、随机森林等[13-14]。然而,机器学习仅限于浅层特征提取,其非线性表达能力有限,无法抽取遥感影像中林地的深层次特征。而通过构建深层次神经网络则可以通过自动学习的方式有效抽取影像深层次特征,可以进一步解决以上问题。

Hinton等提出深度学习理论,深度学习通过非线性表达来获取数据中的高级抽象特征,并构建数学模型以提高分类精度和检测准确率[15]。其中卷积神经网络 (convolutional neural networks,简称CNN)在图像分类方面取得了较好的成果,许多学者在CNN的基础上进一步研究产生了众多改进算法,如FCN[16]、SegNet[17]、UNet[18]、PSPNet[19]等,在此基础上许多神经网络算法也被应用于遥感影像信息提取。Nataliia则通过一种多层次的神经网络结构对卫星图像进行土地覆盖和作物类型分类[20];Liu等提出了基于随机尺度拉伸CNN的高光谱高分辨率遥感影像分类方法[21];Felix等利用无人机影像,通过UNet卷积神经网络对不同类型的林地进行了提取[22]。Gui等则利用POI-Net和Deep-UNet对高分一号影像进行了林地检测试验[23]。尽管以上研究相对于传统方法取得了明显的进展,然而,林地相对于普通地物更加特殊。首先,林地在影像中光谱特征表达差异性大,同物异谱现象更加明显,且林地与植被、耕地等地物特征相似,同谱异物现象显著;其次,林地面积差异性较大,既包括大面积森林也包含有小面积林地,尺度差异特征更加明显;最后,由于深度学习需要以大量数据为基础,当前并没有可用于林地提取的遥感影像数据集。

针对上述问题,本研究提出一种顾及多尺度上下文特征的高分影像林地提取方法,在编码阶段利用残差网络实现林地的深层次特征提取,在解码阶段,通过考虑上下文信息的特征融合方法与深度多尺度信息聚合结构进一步提高网络对于林地信息的提取能力。为证明方法的有效性,建立了1个遥感影像林地信息提取数据集,并将该方法与多种常用深度神经网络模型对比,以验证本方法的有效性。

1 林地提取方法

顾及多尺度上下文信息的卷积神经网络模型见图1,该模型是一种端到端的对称训练结构,包括编码器网络和解码器网络2个部分,其中编码部分为残差网络,解码部分则包括顾及上下文信息的特征融合算法与深度多尺度特征聚合。在编码阶段,利用残差网络获取遥感影像中林地的深层次特征。在此基础之上,结合林地在遥感影像中的特征表达,通过顾及上下文信息的特征融合算法提取林地的上下文信息,提高深层网络对目标区域的关注度,此外,考虑到林地尺度差异性相对于遥感影像中的一般地物更加明显,通过建立深度多尺度预测结构,聚合不同从层次网络中所表现出的多尺度特征以获取更好的结果。

1.1 基于残差网络的特征提取

随着网络层数的增加,在促进网络的非线性表达能力的同时,单一的级联结构也会导致梯度消失/梯度爆炸,导致在反向传播的过程中网络参数无法优化。由He等提出的ResNet则避免了这种情况,ResNet通过一种跳跃连接的方式把输入跨层连接到下一层,使得网络的训练更关注于网络之间的变化,相比于原来的映射,残差映射更容易收敛且容易训练[24]。图1中①~⑤分别代表ResNet-101从低级到高级的5个不同阶段的特征。与之不同的是,在初始阶段进一步考虑通过改变卷积核的大小来提取局部林地信息。卷积核的大小从1个7×7变成了3个3×3,可以在保证感受野相同的情况下减少参数,同时,串联多个小卷积核比单个大卷积核具有更高的非线性表达能力,可以进一步提高网络初始阶段对于局部特征的提取能力。此外,为了避免在下采样过程中由于池化层造成的信息损失,该模型构造为一个无池化层的网络,通过将步长设置为2以达到下采样的目的。

1.2 基于残差网络的特征提取

遥感影像中的上下文信息是指不同类型对象的位置和特征表达之间的关系,它可以直接或间接地影响地物信息提取的结果[25-26]。因此,如何在神经网络编码与解码过程中设计一种适合的上下文信息融合结构,对于林地的提取极为重要。在语义分割过程中常用的连接结构是将编码与解码过程中具有相同分辨率的特征进行融合,如UNet和SegNet,这种操作方式可以将不同尺度的特征进行有效融合,避免特征丢失。然而,这种简单通道拼接是基于全局特征信息融合的,缺乏对目标区域的关注,特征表达程度不高,因此,本研究提出一种顾及上下文信息的特征融合算法(图2),将编码过程中特征提取结果与相同尺寸的上采样结果进行特征融合,以契合不断上采样过程中对于上下文特征的需求,首先,通过内积计算二者的相关性程度,其次,利用归一化操作得到注意力评分,最后,通过层之间的加权求和获取上下文信息,实现顾及上下文信息的特征融合。相对于传统的全局信息融合方法,本研究可以充分利用编码与解码阶段各个卷积模块提取的特征图信息,提高对深层网络中目标区域的关注度。

1.3 深度多尺度信息聚合

对于卷积神经网络而言,不同深度对应不同层次的语义特征,浅层网络的分辨率高,可以学习到更多的细节特征,目标位置准确但语义信息较少,而深层网络分辨率低,可以学习到更多的语义特征,但目标位置比较粗略。由于林地在遥感影像中分布面积不同,这也导致了林地相对于遥感影像中的其他地物具有更明显的尺度特征,网络在解码过程中通过不断上采样可以获取到多尺度特征,但一般网络中,只对原始特征进行单层次加权输出预测,输出没有进行物理组合,虽然在一定程度上能够获取部分多尺度信息,却无法充分利用编码与解码过程构成的特征金字塔结构信息,不能进行充分的特征融合。

为解决这一问题,本研究建立了一种深度多尺度聚合结构用于林地特征的提取(图3)。将上采样的结果与不同金字塔层级的特征图谱进行合并操作,得到新的表征能力更强的多层级输出特征图谱,并通过合并操作得到最终预测结果。通过这样的连接,每一层预测所用的特征图谱都融合了不同分辨率、不同语义强度的特征,且该方法仅在原网络基础上进行特征输出,几乎不会增加额外的计算量和时间。

2 试验与分析

2.1 试验数据集

数据集是验证深度学习模型是否有效的关键,但由于数据集的限制使得深度学习在该领域并没有较好的应用,因此,笔者构建了一个新的遥感影像数据集用于林地提取。林地信息提取数据集构建过程见图4。全部数据集标注大约用了2个月的时间,在数据集建立过程中主要面临着2个方面的挑战。首先,林地与草地、耕地等植被区域具有一定的相似性,使得标注更加困难;其次,由于地物复杂度高,尺度变化性大,影像中既包括大面积的林地也包含大量小区域林地;最后,在完成数据集初步标注之后,进行了多次检查与完善,最终形成1个可以用于林地信息提取的数据集。由于原始图像尺寸较大,为便于训练,将影像裁剪为256×256像素图像,在数据集制作过程中采用随机裁剪、随机旋转、模糊及随机噪声等操作进行数据增强操作,这可以进一步减少过拟合以及提高网络的泛化能力,最终可用于训练的数据集包括9 048张训练影像、1 296张验证影像和1 460张测试影像。

2.2 试验环境

2.2.1 参数设施 所有训练及测试都是在TensorFlow的深度学习框架Keras上进行的,在带有Win10系统,NVIDIA GeForce RTX 3090 24 G的GPU上实现的,神经网络在训练过程中需要人工设置部分超参数以使其可以获得较优的试验结果,经过反复的调试验证,本研究获取了最优的超参数设置,迭代次数为200,训练次数为8,初始学习率为0.005,最小学习率为0.000 01,缩减因子为0.9。在训练过程中通过监测损失函数的值,在连续5次迭代之后性能依旧没有改善,即损失函数没有降低,则将学习率变为原来的0.9。

2.2.2 损失函数 训练过程中损失值是计算当前批次所有样本的平均损失,它可以在反向传播时对平均损失计算出的梯度进行权重更新。然而,如果训练数据集出现正负样本数量比例不平衡情况,计算出的平均损失中负样本所占比例过大,训练出来的模型会倾向于只预测负样本,并且负样本的预测概率非常高,回传的梯度也很大,且遥感影像中林地明显存在样本不平衡的问题,这样会导致模型检测性能降低。因此,本研究在二进制交叉熵损失函数的基础上引入了类别平衡因子w,如式(1)所示,该损失函数可以通过减少样本中负样本类别损失函数权重,增加样本中正样本的类别损失函数的权重,以加强模型对正样本的关注度,减小对负样本的关注度。

(1)

式中:L为平均损失函数值;yi={0,1},表示像素类别的真实值;pi∈(0,1),表示像素类别的预测概率值,w为平衡因子,设置为0.6,N代表输入像素总数。

2.3 林地提取精度评价标准

为定量评价本研究方法并将其与现有网络模型进行对比,选用常用的5种评价标准,包括IOU (Intersection Over Union)(式2)、准确率 (Accuracy)(式3)、F1评分(式4)、精确率 (Precision,P)及召回率(Recall,R)(式5)。其中IOU可以兼顾到误检和漏检,已经成为了语义分割的标准,F1评分是基于精确率P与召回率R的指标,能够计算模型对于召回率与精确率的平衡程度,也作为本研究的重要评价标准。此外,Accuracy作为全局精度评价方法也将其加入其中。为准确分析提取结果,通过不同颜色比较提取的林地像素与真实地面的分类结果(表1)。

(2)

(3)

(4)

(5)

表1 像素分类结果说明

2.4 试验结果与分析

2.4.1 定性分析 为了全面呈现本研究方法在不同类型区域的林地检测结果,本研究从场景密度、林地面积等不同要素影响下的结果进行可视化展示,结果见图5,场景类型从上至下趋向复杂,地物密集程度也不断增加,林地结构则包括小面积的稀疏林地,也包括大面积的密集林地。

由图5-a、图5-b可知,对于小面积环境较为复杂的林地区域,本研究方法基本可以准确地检测出林地的范围,且存在较少数量的误检(蓝色)和漏检(红色)区域,而PSP-Net及UNet与本方法的差距主要体现在误检方面,且检测得到的林地结果完整性较低,而SegNet和FCN-8s与本方法在可视化效果上差异较为明显,不仅漏检较为严重,且存在大面积的误检情况。随着林地面积的不断增加,各种方法对于林地的提取结果也皆有所提高,这是由于林地面积变大之后,其特征更加明显也更容易被提取,由图5-c、图5-d可知,对于大面积的林地每种方法皆取得了更好的效果,但从可视化结果中也可以看出,相对于PSP-Net及UNet,尽管效果差距不大,但本研究方法对于边界细节方面具有更好的效果,尤其对于大面积林地内部的完整性表达方面具有较好的效果,而PSP-Net及UNet则存在大量的空洞,此外对于其中掺杂的部分小面积林地也可以有效提取,如图5-d的左上角区域,而SegNet和FCN-8s与本研究方法在大面积林地区域的可视化效果上差异较为明显,不仅存在大量的误检(图5-c)且存在大面积漏检(图5-d)。通过初步的定性可视化展示,可知本研究方法在对比的多种方法中可以获得更好的效果。

2.4.2 定量分析 为了使比较结果更加可靠,本研究对各种结果进行了定量分析, 在相同数据及电脑性能的条件下林地提取结果与其他深度学习方法的定量评估结果见表2。通过比较该值可得出结论:本研究方法在提取遥感影像中的林地方面具有最佳的性能,与其他算法相比,IOU值提高了2.49~15.32百分点,F1评分提高了4.28~11.83,与此同时,整体精度、正确性、召回率也明显高于其他网络,此外,由于Precision和Recall存在着相互制约的关系,如何平衡二者以获得更好的提取结果也是评判模型好坏的重要因素,从表3可以看出,本研究方法中P值和R值差异为2.80百分点,而其他方法差异为4.01~12.61百分点,这也进一步证明本研究方法对于二者的平衡具有更好的效果。

表2 不同方法的林地提取结果精度对比

2.5 消融试验

为有效提取遥感影像中林地信息,CNN作为一种流行的深度学习算法仍在不断探索之中,本研究所提出网络结构中的残差网络、编码与解码过程中的上下文信息融合以及最终的深度多尺度聚合在林地提取过程中有着重要的作用。因此,为了进一步证明每个模块在模型中的作用,在相同数据下进行了消融试验,将本研究中的卷积主干作为基线和先后添加了不同的关键组件进行对比,以检查每个组件的贡献,表3分别从5个指标评价了各种消融试验,其中Accuracy提高了4.26~6.81百分点,F1评分提高了1.88~3.43,IOU提高了1.49~5.12百分点,可以清楚地看出,本研究方法中的每个模块对于最终的结果都是有益的。

2.5.1 残差网络 神经网络对于影像深度特征的提取程度决定了最终提取结果的优劣。因此,首先分析了残差网络优点,为此,训练了一个不含有残差的神经网络模型,直接通过普通卷积作为特征提取的基线结果,另一个则是包含有残差的网络结构模型,由表3可知,通过聚类特征约束,Accuracy、F1及IOU分别获得了6.81百分点、3.43、5.12百分点的明显提升,通过这种控制变量的方法,说明本研究所利用的残差网络可以有效提取影像的深度特征。

2.5.2 顾及上下文信息的特征融合 在特征融合阶段,传统融合方法缺乏对于目标区域的关注,对于深层次特征表达程度不高,而本研究通过考虑上下文信息,进一步提高了编码与解码过程中的信息融合度,提高了网络的非线性表达能力。在该部分中,利用普通的聚合结构对本研究所提出的方法进行替换,从表3可以看出,通过顾及上下文信息的特征聚合,Accuracy、F1及IOU分别获得了4.26百分点、3.05、1.49百分点的精度提高,顾及上下文信息的特征融合将有助于网络特征表达性能的进一步提升。

2.5.3 深度多尺度聚合 如何有效融合多尺度特征一直是遥感影像地物信息提取所需要解决的问题,为避免多层加权输出所导致的特征损失,本研究网络通过物理聚合的方式保存不同尺度下的所有特征,此外,与一般的3层多尺度输出不同,着重考虑了影像中林地更多的尺度表达,建立了具有四层的尺度输出结果,这种增益效果也是明显的,如表3所示,Accuracy、F1及IOU分别获得了5.45百分点、1.88、2.87百分点的精度提升。这也证明该部分的加入是完全必要的。

表3 本方法中不同模块的消融试验结果

2.6 抗干扰能力分析

为了进一步证明该方法的抗干扰能力,分析了遥感图像中的各种干扰。图6-a红色框为耕地,其光谱特征与视觉上的林地相似,图6-b、图6-c中红色框则包含有暗色水体,其光谱相似性表达与林地具有相似性,此类干扰是林地提取过程中一个极具挑战性的问题,然而,该方法可以有效地避免这些特征的干扰。此外,图6-d中的红色框中林地内部包含有部分裸地,林地内部特征表达复杂,但本研究方法依旧可以较为完整地提取出完整的林地范围。此外,图6中不同区域的林地光谱特征表达具有明显的差异性,这也进一步验证了本研究方法对于林地提取具有较好的抗干扰能力。

3 讨论与结论

近年来随着深度学习的发展,CNN作为一种有效的方法被用于遥感影像中的地物信息提取。本研究提出了一种顾及多尺度上下文信息的高分影像林地信息提取方法。首先,从遥感影像深层次特征提取入手,利用残差网络提取影像的深层次特征;其次,通过建立顾及上下文信息的特征融合算法进一步将编码与解码过程中的特征进行充分融合,以提高网络对于上下文信息的提取能力,增强网络对于目标区域的关注度;接着,考虑到林地面积影响导致的更大的尺度差异,建立了深度多尺度聚合预测结构。最后,对于神经网络训练过程中样本不均衡的问题,在损失函数中引入了类别平衡因子,以获取更好的林地检测结果。为证明方法的有效性,建立了一个新的遥感影像林地提取数据集,在建立的数据集上进行了4种优秀的深度学习方法用于遥感影像中的林地检测,包括PSP-Net、UNet、SegNet、FCN-8s,通过定性分析和定量分析证明了本研究方法的优越性。另外,最后的消融试验证明了本研究所提出的各个结构的重要性,并对影像中林地提取常见的干扰进行了分析。

随着遥感技术的发展,高分辨率遥感影像的数据量将不断增大,数据获取也会更加容易,且应用会更加广泛,今后的研究将继续深入研究利用深度学习进行林地信息提取,以期进一步提高方法的精度。

猜你喜欢

残差林地尺度
基于双向GRU与残差拟合的车辆跟驰建模
基于残差学习的自适应无人机目标跟踪算法
财产的五大尺度和五重应对
基于递归残差网络的图像超分辨率重建
丹东市林地分类研究
浅谈林地保护及恢复措施
宇宙的尺度
平稳自相关过程的残差累积和控制图
9
林地流转模式的选择机理及其政策启示