APP下载

基于改进LinkNet模型的河流遥感图像语义分割研究

2023-04-30李文逵

人民长江 2023年13期
关键词:解码器编码器河流

李文逵

摘要:河流遥感影像地理背景复杂多变、水体识别对象区分度小、陆地河网形状不规则等导致河流区域识别率较低。为了获取高精度的河流区域信息,提出在原有LinkNet模型网络结构的基础上进行优化设计。首先把卷积块中的激活函数ReLU改成PReLU,然后将始端模块中最大池化替换成平均池化,最后在第一个卷积层前和第四个卷积层后新增一道跨越连接。预测效果表明:LinkNet模型的准确率、精确率、召回率、F1-Score以及mIoU依次为97.62%,80.95%,89.39%,84.96%,76.50%,两改进LinkNet模型的依次为98.21%,85.95%,91.11%,88.45%,81.71%,各项指标值都得到一定程度的提升,表明该改进方法能更加有效地提取自然情景下河流区域。

关 键 词:

LinkNet模型; 河流图像; 语义分割; 深度学习

中图法分类号: TV11

文献标志码: A

DOI:10.16232/j.cnki.1001-4179.2023.S2.056

0 引 言

地表河流属于珍贵的水资源,如今随着生态环境的恶化,中国部分地区生态流量减少,水容量降低,导致水资源相对短缺,时空分布不均匀,这已严重阻碍地区的生产和发展。因此准确获取河流的具体地表分布区域对于流域防治、河道规划、洪灾监测、水资源保护等具有极其重要的作用。

遥感影像能直观清晰地呈现地表径流的地理位置和区域范围,可以映射出整个流域的水体空间宏观分布,受益于卫星硬件的不断完善,使得遥感影像数据成像分辨率更高、更新时间更短以及拍摄成本更低,结合遥感成像来提取水体信息的技术已成为必然趋势。例如,王博等[1]利用简化脉冲耦合神经网络和数学形态学对其进行边缘提取,在抗噪性方面有明显优势。方海泉等[2]使用卷积神经网络对山区、平原和城市的高分二号卫星遥感影像进行河流识别,准确率为 0.928 3。沈瑜等[3]使用FCN _8s、ResNet50、DeeplabV3、Unet、LinkNet、R-LinkNet 6种神经网络模型来提取河流遥感影像,得到像素准确率分别是0.631,0.748,0.816,0.791,0.824,0.847。付宝晶等[4]提出一种融合特征的河流区域提取方法,林地、城市、山地、耕地流域图的准确率分别为0.992 3,0.994 1,1.00,1.00,完整度分别为0.983 7,0.986 3,0.996 8,0.998 5。薛源等[5]建立了结合随机森林和神经网络地河流表面信息提取算法,提取精度达到94.7%。孙玉梅等[6]提出一种基于结构相似区域搜索的细小河流提取方法,实现不连续细小河流的启发式搜索连接,准确地实现細小河流的完整水体信息提取。盛君等[7]量化融合不同分割对象的多种特征信息,使用极限学习机识别,最后通过软投票法获取检测结果,提取的影像数据水体检测结果在准确率、精确率及召回率方面都达到了90%以上。

为了更精确地识别出高分辨率遥感影像河流区域,充分挖掘河流区域特征信息,本次研究利用LinkNet模型提取河流水体,同时对原有LinkNet模型网络结构进行优化,以期实现不同场景下河流区域的连续性完整分割。

1 数据集制作

1.1 数据来源及预处理

使用奥维互动地图浏览器,地图源来自谷歌地图,在图级14、图级15、图级16(比例尺分别为 1∶50 000、1∶100 000、1∶200 000)3个层次下,框选河流区域并导出采样图,利用Photoshop绘图软件的魔棒工具快速选中河流区域,再用油漆桶工具赋色,实现原始图整体标注。标注图中像素点分为两类,白色表示河流,黑色表示背景,采样图和标注图见图1,然后同时将采样图和标注图按512×512分辨率大小对应分割切片,留下河流区域占比大于0.03的切片,获得132张原始图片,切片样本如图2所示。

1.2 数据集扩增

对图像切片进行上下翻转、左右翻转、顺时针旋转90°、顺时针旋转180°、顺时针旋转270°、随机调整明度、高斯模糊共7种变换方式,数据量扩增为原本的8倍,共计1 056张图片,按4∶1比例随机划分训练集和测试集,其中训练集占844张,测试集占212张。

2 实验环境搭建

安装Anaconda作为开发工具集成管理器,从中创建虚拟环境,添加第三方包镜像源通道,再在Anaconda的基础上依次安装Python、PyTorch、Spyder等第三方工具包,具体版本参数如下[8-9]:

工具包管理器    Anaconda 4.10.3

脚本语言Python 3.6

编辑器Spyder 4.0

框架PyTorch 1.11.0

驱动CUDA9.0

显卡GTX 1050

通过Spyder编写Python程序运行,导入深度学习框架PyTorch提供的开发函数,编写有训练、测试、预测、数据输入5个脚本文件。

3 模型构造及训练

3.1 LinkNet模型网络结构

LinkNet模型是由始端模块、终端模块、编码器模块和解码器模块4个部分组成的卷积神经网络[10],与现有神经网络不同之处是采用编码器-解码器对称结构,其框架如图3所示。左边是编码器模块,右边是解码器模块,两者之间存在跨跃连接,皆采用自编码模式,特征信息从编码器输入到低维空间,再将编码器输出信息,通过跨跃连接添加到对应解码器输入中。编码器执行多次下采样操作后,会导致部分空间信息损失,假若仅使用编码器的下采样输出作为解码器输入,则无法恢复丢失的信息。编码器和解码器间建立跨越连接的操作方式,目的是恢复编码器下采样操作丢失的空间信息,供解码器上采样操作使用。因此解码器在每一层共享编码器学习的知识,从而降低解码和生成图像所需的信息量,可极大减少网络所需的参数量,有助于实现反向梯度流动,提高速度的同时又保证精度,与现有VGG等直通式的分段网络模型相比,整体效率更高。

卷积神经网络模型LinkNet的基本构造单元主要有卷积块和反卷积块,卷积块包含卷积层、批次归一化层、激活函数层,编码器模块的每个编码器块均由4个卷积块组成,前端的两个卷积块组成前置模块,并与残差输出相加合并,将结果传递给末端两个卷积块组成的后置模块(见图4)。图中展示的编码器中采用的详细残差结构,卷积层参数从左至右依次是卷积核大小,特征图输入输出通道数,上采样因子。反卷积(Transposed Convolution)块是解码器的构建单位,采用转置卷积进行反卷积运算,先按照一定比例,通过自动填充来扩大输入图像尺寸,从而输出指定行列数矩阵,接着旋转卷积核,然后进行正向卷积。由于卷积神经网络提取特征后,输入图像的输出尺寸一般会缩小,为了便于下一步计算,需要恢复到原先的尺寸,采用反卷积映射来扩大图像分辨率,是实现上采样操作的一种方式。

3.2 改进LinkNet模型

LinkNet模型采用函数ReLU(x)=x,x≥00,x=0作为激活函数。不足之处是若某个神经元的输入自变量x=

0,则以后自身参数的梯度一直为0,训练过程中永远

不再被激活,导致神经元死亡问题。为了避免这种现象,将函数ReLU改为其优化版本PReLU(x)k=x,x>0λk,x≤0,不同通道k使用不一样的激活函数,线性单元参数λ能在训练过程中自适应矫正,且x≤0时参数

λk值不会为0,并且在额外增加很少计算成本条件下提高准确率。模型始端模块中最大池化替换成平均池化,最大池化操作只选择卷积核区域的最大值进入下一层,而抛弃其他元素。这种操作方式同时会丢失一

些特征图中的细节信息,而对于平均池化则是提取卷积核区域中所有像素点的平均值,可以保留更多的图像背景信息。对编码器模块的第1个卷积层前和第4个卷积层后添加一条跨越连接,把第1个卷积层和第3个卷积层输出合并,再输入第4个卷积层,形成更密集的连接,使得特征信息利用更充分,如图4所示,左边是原始模块,右边是改进后模块。

3.3 模型训练过程

训练开始时需要设置超参数,初始学习率(learn-ing rate)为0.001,迭代(epoch)轮次为30,由于显存大小的限制,批次规格(batch size)设置的较小值为8,运用Adam作为优化器(optimizer),使得训练过程中学习率能动态适应,损失函数评价标准为交叉熵(Cross Entropy Loss),准确度评价标准采用平均交并比:

mIoU=∑nk=0IoUkn

式中:IoU=L∩SL∪S,表示标注区域L和預测区域S两者交集与并集的比值,n是测试集样本总数[11-14]。

由图5可见,各个评价指标最终趋于收敛,表明模型训练成功。

4 实验结果

4.1 模型预测结果

将训练完毕后的LinkNet模型和改进LinkNet模型用于识别测试集中单张河流图像,

输出语义分割预测结果,由图6所示的二值语义分割图像,可见LinkNet 模型分割区域边缘凹凸不平呈现锯齿状,而改进LinkNet模型的识别区域则较为平滑,更加接近于标注图。

4.2 预测效果综合评价

采用表1中的5种标准评价模型对测试集的预测效果[15-18],设标注图中白色定为正,黑色定为负,则每个像素有4种可能的预测值,分别是真正TP、假正FP、真负TN、假负FN,则准确率A=TP+TNTP+TN+FP+FN、精确率P=TPTP+FP、召回率R=TPTP+FN、F1=2TP2TP+FP+FN。由表2可见,相比较于原有LinkNet模型,改进LinkNet模型的准确率、精确率、召回率、F1值、mIoU依次提高0.005 9,0.050 1,0.017 2,0.034 9,0.052 1。

5 结 语

本文针对河道遥感图像实现语义分割,在原本LinkNet模型网络结构基础上进行改进,实验检测的结果表明,提出的改进型模型经过训练学习后,在河流语义分割任务中取得了更佳的分割性能,为高分辨率遥感图像中河流区域的精准识别提供良好的技术支撑。

研究对象所用数据集包含城市、山地、农田等多种地形地貌,具备一定的泛化能力,但是样本数量过少,面对其他不同的复杂场景仍能有较高识别精度,所以模型还需修改,接下来可以就其他方面优化,比如运用大规模数据集时,可能需要加深网络层次,增大网络的参数量。

参考文献:

[1] 王博,石陈妮子.基于简化PCNN的遥感影像河流信息提取[J].人民黄河,2019,41(1):61-64.

[2] 方海泉,蒋云钟,冶运涛,等.基于深度学习和多次棋盘分割法的高分辨率影像河流提取[J].北京大学学报,2019,55(4):692-698.

[3] 沈瑜,苑玉彬,彭静,等.基于深度学习的寒旱区遥感影像河流提取[J].农业机械学报,2020,51(7):192-201.

[4] 付宝晶,李自立.基于多特征融合的遥感图像河流提取[J].中国农村水利水电,2022,482(12):53-58.

[5] 薛源,覃超,吴保生,等.基于多源国产高分辨率遥感影像的山区河流信息自动提取[J].清华大学学报(自然科学版),2023,63(1):134-145.

[6] 孙玉梅,王保云,张祝鸿,等.基于结构相似区域搜索的TM影像细小河流提取方法[J].国土资源遥感,2020,32(2):63-72.

[7] 盛君,王杰,孙策,等.基于高分辨率遥感影像的河流信息提取方法[J].测绘标准化,2022,38(2):52-56.

[8] 沈吉宝.多特征融合的遥感影像河流提取方法[J].矿山测量,2021,49(2):107-111.

[9] 李鑫伟,李彦胜,张永军.弱监督深度语义分割网络的多源遥感影像水体检测[J].中国图象图形学报,2021,26(12):3015-3026.

[10] 杨知,欧文浩,刘晓燕,等.基于LinkNet卷積神经网络的高分辨率遥感影像水体信息提取[J].云南大学学报,2019,41(5):932-938.

[11] MIAO Z,FU K,SUN H,et al.Automatic water-body segmentation from high-resolution satellite images via deep networks[J].IEEE Geoscience and Remote Sensing Letters,2018,15(4):602-606.

[12] ECKHORN R,REITBOECK H,ARNDT M,et al.Feature linking via synchronization among distributed assemblies:simulations of results from cat visual cortex[J].Neural Computation,2014,2(3):293-307.

[13] 李鑫伟,李彦胜,张永军.弱监督深度语义分割网络的多源遥感影像水体检测[J].中国图象图形学报,2021,26(12):3015-3026.

[14] 李宇,肖春姣,张洪群,等.深度卷积融合条件随机场的遥感图像语义分割[J].国土资源遥感,2020,32(3):15-22.

[15] JOSE D,KARTHIK G,YUAN J,et al.Hyper Dense-Net:a hyper-densely connected CNN for multi-modal imagesegmentation[J].IEEE Transactions on Medical Imaging,2019,38(5):1116-1126.

[16] 沈骏翱,马梦婷,宋致远,等.基于深度学习语义分割模型的高分辨率遥感图像水体提取[J].自然资源遥感,2022,34(4):129-135.

[17] 何红术,黄晓霞,李红旮,等.基于改进U-Net网络的高分遥感影像水体提取[J].地球信息科学学报,2020,22(10):2010-2022.

[18] 陈前,郑利娟,李小娟,等.基于深度学习的高分遥感影像水体提取模型研究[J].地理与地理信息科学,2019,35(4):43-49.

(编辑:黄文晋)

猜你喜欢

解码器编码器河流
科学解码器(一)
科学解码器(二)
科学解码器(三)
线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器
河流
基于FPGA的同步机轴角编码器
流放自己的河流
基于PRBS检测的8B/IOB编码器设计
JESD204B接口协议中的8B10B编码器设计
当河流遇见海