APP下载

基于Unet+CRF的GF
--2土地利用分类

2021-04-07师超姜琦刚段富治史鹏飞

世界地质 2021年1期
关键词:像素卷积分类

师超,姜琦刚,段富治,史鹏飞

1.吉林大学 地球探测科学与技术学院,长春 130026;2.武汉大学 遥感信息工程学院,武汉 430079

0 引言

近年来,随着国产卫星业务的发展,遥感影像越来越向高分辨率、多光谱的方向发展,卫星影像所包含的信息越来越复杂。在遥感应用中,遥感解译为城市建设、防灾减灾和生态监测等提供了基础数据,而解译一直以来是一项费时费力的工作。传统的人机交互解译方法也在向半自动、自动化解译的方向发展。卷积网络的出现为遥感影像的自动化地物分类开辟了新的道路。

基于卷积神经网络的语义分割技术是对遥感影像进行分类的重要手段之一。语义分割是计算机视觉中的研究热点,主要是将原始数据(图像、点云)作为输入,通过一系列变换操作将其转换为具有突出显示的感兴趣区域的掩膜[1]。传统的图像分割方法主要针对图像的色彩、纹理等信息进行处理分析,例如基于像素的聚类分割方法[2]、基于像素的决策树分类方法[3],受当时条件所限,这些传统方法只能处理一些灰度图,提取图像的低级特征,远远达不到应用生产级精度[4]。且受目标类别分布不均衡、纹理细节难以分辨等因素的影响[5],传统的语义分割模型通常难以对卫星影像等包含海量复杂信息的数据进行类别划分。近年来,深度学习技术的发展为语义分割技术带来了新的解决思路,如加入跳跃结构,融合深浅层特征的全卷积神经网络(FCN)[6]、在FCN基础上解决了FCN因缺乏空间一致性而导致分割结果不够精细的Deeplab网络[7]等。目前语义分割技术大多应用于实际场景,针对包含海量信息的遥感影像的应用依然较少,Ronneberger et al.[8]提出Unet模型,最初应用于生物细胞图像分割,目前已经被应用于许多任务,如图像分割、图像转换等,且取得了不错的效果[9]。Unet模型是一种基于像素的端到端的全卷积神经网络模型,由FCN模型改进而来。本文将Unet模型应用于遥感图像分类,通过Unet模型的跳跃连接机制将图像深浅层信息融合起来,对图像细节特征进行提取[10]。单独使用Unet模型对于地物的分类效果较为粗糙,难以分辨地物细节,而全连接条件随机场(CRF)在求解像素标签时考虑图像中其余像素对该像素的影响,能极大地细化标记和分割,使得边界处分割准确[11]。本文通过将Unet模型的输出作为全连接条件随机场的输入,综合二者优势,得到准确性高、边界清晰的分类结果。

1 模型原理及评价指标

1.1 模型原理

Unet网络是一种基于像素的端到端的图像语义分割方法,最初由Ronneberger et al.[8]提出并最先应用于生物细胞图像分割。全连接条件随机场是由Lafferty J et al.[12]提出,是一种基于概率的无向图模型。本文将二者结合,使用自制训练数据进行模型训练及预测,模型结构如图1所示。

笔者使用自制训练数据对Unet网络模块进行训练及研究区分类预测。Unet网络是一种轻型网络,能够在较小的训练样本的基础上取得较好的分类效果。Unet网络整体上呈现U型对称结构,采用跳跃连接,将下采样过程中得到的浅层特征及上采样过程中得到的深层特征进行拼接,使得最终得到的特征图中既包含深层特征又包含浅层特征,实现不同尺度的特征融合,从而实现特征提取。本文使用的Unet网络可分为左右两个部分,左侧由4个下采样卷积块组成,每个下采样卷积块分别进行两次卷积操作和一次最大池化操作。右侧由4个上采样卷积块组成,每个上采样层均包含两次反卷积及特征融合操作。每次卷积、反卷积后均使用ReLu函数作为激活函数。Unet网络通过多尺度融合,有效提高了预测结果的准确度。

图1 Unet+CRF模型结构

中全连接条件随机场(CRF)是整个模型的后处理阶段,以Unet模型的输出结果作为CRF的输入,对结果进行精细化分割。CRF解决了全局归一化问题,可以较好地应用于像素级图像分割。在全连接条件随机场中,原始图像中每个像素点都具有一个已分配好的类别标签xi,目标图像中有一个与之对应的观测值yi,将每个像素都看作一个节点,使用像素与像素之间的关系作为连接边,且每个像素点都与所有的像素点连接,这样就组成了一个全连接条件随机场。全连接条件随机场符合吉布斯分布[13]。公式为:

(1)

式中:x为观测值,E(X|I)为由一元势函数和二元势函数构成的能量函数,公式为:

E(x|I)=∑iψu(xi)+∑i,jψp(xi,yi)

(2)

式中:一元势函数ψu的计算只考虑了单个像素点的特征来对像素点进行标签分类,这和卷积神经网络的后端输出一致,因此本文的全连接条件随机场直接进行二元势函数的计算。二元势函数结合了像素间的关联性,将相似的像素标记为相同的标签,差异较大的像素标记为不同的标签,使得土地利用分类的结果边界更加清晰明确。

1.2 评价指标

采用Kappa系数及F1--score作为衡量分类精度的指标。Kappa系数的计算是基于混淆矩阵,公式为:

(3)

式中:p0为总体分类精度,是每一类正确分类的样本数量之和除以总样本数。pe被称为偶然性一致性比例,表示偶然性因素导致的错误解释的比例。Kappa系数通常在0~1之间,0.61~0.80即代表分类结果与实际类别具有高度一致性[14]。

F1--score同时兼顾了分类模型的精确率和召回率。公式为:

(4)

由数学定义可明显看出,F1--score指标综合了precision(精确率)与recall(召回率)的结果,是一种对模型具有均衡评价效果的指标。

2 研究区及数据集

2.1 研究区选取

选取吉林省长春市朝阳区附近区域(图2)为训练区,训练区面积约144.14 km2,选取吉林省长春市宽城区部分区域为预测区,预测区面积约145.04 km2。以GF--2影像数据为数据源,经过342波段组合及全色波段融合后,空间分辨率为2 m,足以进行精细地物的训练及预测。

图2中训练区内主要地物分布均匀,根据区内实际地物类型将训练类别分为耕地、林草地、建筑用地、道路、湖泊、河流及裸地,共7类地物类型。

2.2 训练数据集制作

本文采用的训练数据集是以GF--2影像为数据源的目视解译成果。训练集制作流程如图3所示。在Arcmap中通过对GF--2遥感数据进行目视解译,得到训练区目视解译图。本文模型训练所使用的计算机系统为Window10,Core i9处理器,运行内存16 G,显卡为RTX 2060。考虑到计算机性能的限制,将目视解译图及对应的影像裁剪为128×128像元大小,得到等大的影像及对应的标签。

为扩大训练数据集,提高训练模型的泛化性,对训练集数据随机进行了旋转、镜像、添加噪声等数据增强操作[15],而且将人工解译的RGB型标注转换为灰度标注以便模型读取,生成7 744组训练样本(图4)。

图3 训练数据制作流程图

实验使用的7 744组训练样本中,耕地、林草地、道路、建筑用地、湖泊、河流及裸地所占比重如图5所示。

由图5可知,本实验是一个典型的样本分布不均衡试验,训练样本中湖泊所占比重最少,仅为2.46%,耕地所占比重最高,为43.27%。从该模型的最终精度评价来看,其Kappa系数达到0.711,F1--score达到0.795,可见对于样本不均衡问题,Unet+CRF方法依然能够取得较好的分类效果。这大大降低了样本集的制作难度及训练区地物类别分布的要求。

3 分类结果及分析

将耕地、林草地、道路、建筑用地、湖泊、河流及裸地分别采用Unet、Unet+CRF、Segnet、Segnet+CRF模型进行训练及预测。训练数据7 744组,Unet网络训练轮次达到40次时模型训练完成,Segnet网络训练轮次达到13次时模型训练完成,最终得到如图6~8的分类结果对比。

由上述研究区分类结果图及不同模型间的精度差异(表1)可以看出,Segnet网络、Unet网络均能对耕地、建筑用地进行区分,且CRF结构均对两种网络的分类结果进行了较好的优化,但Segnet网络对于其他少样本地物分类精度明显不足。CRF结构对于Segnet网络的Kappa系数提高了0.062、F1--score提高了0.005,对于Unet网络的Kappa系数提高了0.018,F1--score提高了0.011。但从表1可以看出,单独使用Segnet网络分类精度较低,Kappa系数仅0.524,F1得分为0.676。使用Unet+CRF方法得到最终的Kappa系数为0.711,F1--score为0.795,与真实地物具有高度一致性。由图6~8可看出采用segnet网络得到的预测结果部分地区存在较为明显的拼接现象,整体预测效果不佳。采用Unet网络得到的预测结果图无明显拼接现象,整体效果较好。

图4 部分训练数据图(影像+标注)

图5 训练数据不同类别所占比重图

表1 不同模型间精度评价

图6 研究区影像图及真实标签

图7 Segnet及Segnet+CRF分类结果

图8 Unet及Unet+CRF分类结果

本文使用的Unet+CRF方法分类结果混淆矩阵如图9所示,表2中显示了该方法有16.8%的林草地被错分为耕地,这与训练样本中一些林草地的颜色、纹理特征与耕地特征较为相似所导致。有21.2%的裸地被错分为建筑用地,这是由于某些建筑用地色彩纹理特征与裸地相近。此外,“湖泊”类别整体正确率较其他类别低,有42.6%的像元错分为了河流,这是由于湖泊与河流本身色彩特征较为相近,只能依赖形状特征进行划分所致。

图9 Unet+CRF分类结果混淆矩阵

不同分类方法对于不同地物的分类正确率如表2所示。由表2可看出,本文所采用的4种方法对建筑用地、林草地、耕地、河流、道路均具有较好的区分度,其中,Unet+CRF方法对于耕地、裸地、河流、道路均具有最高的正确率划分,分别达到了77.13%、54.71%、63.42%、69.31。Segnet+CRF方法对于建筑用地正确率最高,达到了74.62%,但对于其他类型地物的划分,正确率远低于Unet+CRF方法。

4 结论

(1)采用Unet+CRF方法进行模型训练及预测,预测结果Kappa系数达到0.711,F1--score达到0.795,与实际地物具有高度一致性,能够较好地应用于国产GF--2卫星数据地物自动分类领域中。

表2 不同地物分类精度表

(2)Unet+CRF方法面对类别不均衡的训练样本时,依然能够取得较好的分类效果,降低了对训练数据制作的要求,提高了模型的整体运行效率。

(3)Unet模型中包含跳跃连接结构,将低层信息与深层特征信息相融合,能够更加精确地分割地物,提高分割精度。

(3)Unet+CRF方法是基于像素进行模型训练及预测的,对于像素值相似的地物类型存在不易区分的问题,在未来的模型完善中,可考虑与多种模型融合,综合不同模型取得的特征图,选取最为准确的一类或几类作为最终特征图。

猜你喜欢

像素卷积分类
像素前线之“幻影”2000
基于3D-Winograd的快速卷积算法设计及FPGA实现
分类算一算
卷积神经网络的分析与设计
“像素”仙人掌
从滤波器理解卷积
分类讨论求坐标
数据分析中的分类讨论
基于傅里叶域卷积表示的目标跟踪算法
ÉVOLUTIONDIGAE Style de vie tactile