APP下载

基于语义分割深度学习的地基云图分割方法

2023-12-08王敏李晟庄志豪王康孙硕吴佳

科学技术与工程 2023年31期
关键词:云图语义卷积

王敏, 李晟, 庄志豪, 王康, 孙硕, 吴佳

(南京信息工程大学电子与信息工程学院, 南京 210044)

云是大气中的水汽经过凝结作用而形成的多形态可见聚合物[1],其组成的云层覆盖了大部分地球表面[2]。云作为重要的气象要素,在即时天气预报、即时降水预测、人工增雨、云层覆盖预测、辐照度预测、航空管制、卫星地空通信优化[3-4]等诸多方面得到广泛的研究和应用。云图是分析云相关信息的主要工具,主要包括卫星遥感云图和地基云图[5]。卫星遥感云图缺乏详细的地面信息[6]。利用地基云图的高时空间分辨率,可准确地获取局部的云条件[7-9]。

云图分割是获取云的诸多参数的基础,但由于云的边界模糊、纹理复杂,传统图像分割算法已不能适用于地基云图的分割领域[10]。传统的云图分割方法主要是基于阈值分割技术[11-15]、神经网络模型[16-17]以及更复杂的方法,包括马尔科夫随机场模型[18]、高斯混合模型[19]和归一化切割法[20]。Long等[21]提出一种固定阈值算法,根据RGB颜色空间中R和B通道阈值的强弱来提取云区域。Heinle等[22]在前者基础上添加使用红蓝通道的差值提取云图的纹理特征,并使用K最近邻法(Knearest neighbors,KNN)算法实现云图的分割。类似地有自适应阈值方法和超像素分割方法被Liu等[23]应用于云图分割。Taravat等[24]拓展了支持向量机(support vector machines,SVM)和神经网络等机器学习算法在云图分割领域的应用。孙劲光等[25]提出一种改进近邻传播的聚类的图像分割算法。但是基于阈值的分割算法很少利用到空间信息,且严重依赖于天气条件、光谱特征等因素,性能会在源域和目标域之间存在大量的误分割。机器学习算法则对参数的选取较为敏感,自适应能力差,针对上述问题和限制有必要开发一种稳定准确、鲁棒性强、泛化能力强的自适应地基云图分割算法。

语义分割作为计算机视觉的基本任务之一[26-27],其可以预测图像以生成相应的掩码,但由于缺乏大规模的地基云图云注释数据,仅少数方法是基于地基云图数据集,所以值得进行深入研究以探索模型的云分割性能。卷积神经网络(convolutional neural network,CNN)应用于云图分析任务中取得了突破性进展,这得益于在云特征表示和高级云特征提取方面的强大能力[28-30]。

现先总结介绍国内外现有的标签置信度高标准地基云图数据集,接着阐述最近的基于语义分割模型的地基云图分割研究进展和效果,介绍基础理论并选取八种典型的语义分割模型分析的分割效果,再在云图数据集上验证模型的泛化能力和鲁棒性,最后对地基云图像素级自适应分割技术的研究做出总结和展望。

1 地基云图分割数据集

标准的地基云图分割数据集是后续云天分割等云信息获取的重要基础。数据集的质量将直接影响云图分割模型的性能,研究人员需要挑选出噪声干扰项因素较小、云特征信息明显的云图,对云天进行精准的标注,此外为提高云图数据样本的置信度,需要专业气象专家对相似度极高、云体边缘不明显、云天交融问题等云图进行标注。考虑到标准大规模分割数据集的制作成本较高,耗时长,研究学者们一直使用小样本数据集进行地基云图分割和识别研究,除了数据扩充等技术外,学者依托深度学习技术来制作数据集,先将捕获到的云图数据使用预训练模型进行分割,再将云图颜色通道分量进行阈值分割,再将二者图像矩阵进行将与操作,最后对将与后的结果图进行人工校准和标注。如图1所示,展示SWIMSEG数据集部分样图。

(1)BENCHMARK数据集。BENCHMARK数据集是UTILITY数据集的子集[31],从其中选取32幅包含有积云、卷云和层云不同形式的云图,再使用Voronoi多边形区域生成器生成二值掩膜图像做真值(ground truth,GT)图像。但由于该数据集的云图样本数据量有限,因此在使用深度学习技术时可能会导致过拟合问题。

(2)SWIMSEG数据集。SWIMSEG数据集全称是新加坡全天图像分割数据集,由Dev等[32]部署在新加坡南洋理工大学的天空成像系统WAHRSIS获得云图像。该数据集中的云掩码相当高的准确性。其具有统一性和组织性,但对于薄云等区域存在标签精准度不足的问题。

(3)WSISEG数据集。WSISEG数据集全称是全天空图像分割数据集,由Fa等[33]提出的半球天空图像数据集。该数据集包括有各种云层覆盖、全天时间以及太阳的方位角和仰角,因此其反映了完整的全天条件。

(4)CCSN数据集。CCSN数据集全称为卷云积云层云雨云数据集,由中国学者Zhang等[34-35]所构建,其数据量为SWIMCAT数据集[36]的3倍,其最大特点就是将尾迹云[37]纳入该数据集中,但是该数据集没有相应的云掩码标签。

其余的公共数据集还有HYTA数据集,全称为混合阈值算法数据集[31],新加坡南洋理工大学陆续发布了SWINSEG[38]、SWINySEG[39]、SHWIMSEG[40]等高质量数据集,中国学者Zhou等[41]针对云图数据量小标签不足等问题所制作的CBCS数据集,Zhang等[42-43]制作了TJNU云探测数据集TCDD和TJNU大规模云探测数据集TLCDD,如表1所示,罗列了各类地基云图数据集基本信息,都为研究语义分割网络在地基云图分割技术方面奠定了有力的基础。

2 语义分割模型在地基云图分割研究回顾

深度学习技术因AlexNet[44]在大规模图像识别大赛上的杰出表现而备受关注,在云探测领域中使用基于深度学习云图分割方法可以使计算机自动提取云特征和分割云图中云的部分[45],学者们不断拓新提出更多新模型范式。毋立方等[46]提出了一种基于超像素分析聚类的全卷积网络(fully convolutional networks,FCN)和卷积神经网络联合的FCN-CNN云图分割方法,该方法的局限性在于无法对云图分割实现端到端的训练,需要预先对云图进行聚类。沈慧想等[47]提出了一种基于对称式密集连接CNN模型的地基云图分割方法,特点是通过密集连接块和上采样模块并联融合浅层和深层特征,最终实现对地面云图像的精准分割。该方法存在模型参数量较大,严重影响了训练速度的问题。Dev等[48]基于Encoder-Decoder模型设计一种名为CloudSegNet的轻量级深度学习模型,云图分割准确率达到94%,可以有效解决薄云出现从而导致标签错误的问题,并史无前例地实现了白天和夜间的云图分割。Xie等[49]提出了SegCloud模型,该模型在400幅带有手动标记标签的全天图像上训练,实现了云图像的有效且精准的分割,该模型通过计算云图像中云像素占所有像素的百分比,提供了可靠的云量信息。在证明其准确性和实用性的同时,仍需进一步模型优化以提高在薄云的识别与分割精度。Shi等[50-51]对U-Net进行优化提出了CloudU-Net、CloudU-Netv2对昼夜图像进行了有效地分割。其中CloudU-Netv2采用双线性上采样、位置和通道注意力模块,优化了原先CloudU-Net的分割性能。Zhang等[52-53]提出了多尺度注意力卷积神经网络(multiscale attention convolutional neural network,MACNN)模型,添加了多尺度模块,以及用于学习注意力系数的注意力模块。随后提出了具有双金字塔池化模块的DPNet,在大数据集上取得了较好的分割效果。Shi等[54]继续深入研究云分割,提出了CloudRaednet模型,编码器中添加了残差模块,采用注意门连接解码器,可实现在不不增加时间复杂度的条件下,更好地分割地基云图中的局部细节。Makwana等[55]提出基于注意力和聚类的轻量级云分割网络ACLNet,实现了较好的云图预测性能。如表2所示,详细介绍了近年来地基云图检测领域研究学者所提出的分割模型,使用的数据集不尽相同。 其中CloudU-Net、CloudU-Netv2、MACNN、CloudRaednet、DPNet、ACLNet等网络都取得不错的效果。

表2 地基云图分割主要模型和训练数据集介绍Table 2 Main segmentation models and training data sets of ground-based cloud images

综上所述,可知深度学习技术在云检测任务中通过对海量数据的训练,挖掘精细的云体特征,达到良好分割效果,研究学者们尝试更多类型的分割模型范式和算法来实现地基云图分割任务。

3 基于深度学习语义分割的地基云图分割模型评估

为对语义分割网络模型在地基云图分割任务上的性能表现做出详细的评估,现先对基础理论简单介绍,然后选取现阶段性能较好的几种语义分割网络在地基云图数据集上进行实验,对分割结果数据做指标性评估,并对分割效果进行可视化操作,最后验证泛化能力。

3.1 卷积神经网络理论

卷积神经网络(CNN)[56]因其具有强大的自适应特征提取和学习能力可挖掘地基云图中云体精细边缘和纹理等不明显特征信息,CNN可以利用共享权值、局部连接等特性来大幅度减少网络复杂度[57]。CNN是一种端到端的高效网络,可避免前期复杂烦琐的源数据预处理工作。

CNN结构主要包括卷积层、池化层、全连接层等,卷积层使用卷积核对输入图像进行卷积运算提取特征,如图2所示,展示了经典CNN模型结构图。CNN模型训练时,前层权重参数影响后层输入数据分布,因此通常在卷积层加入批标准化方法(batch normalization,BN)[58],以加快模型的收敛速度,使各层之间有合适的广度。BN作为参数优化方法,可使分散的参数变化为符合高斯分布,使得训练的模型稳定性更高。池化作用是对特征图(feature map)做消除冗余特征的下采样操作[59],在降低空间不变性的同时仅保留重要的特征信息,可以调节网络模型的复杂性。全连接层作用是整合CNN学习提取到的特征信息,将多维特征输入映射为二维特征输出。

3.2 语义分割网络模型

图像语义分割的本质是对图像像素的分类,语义分割技术对实现云图的自动化、高效率、高精度的精准检测与分割有重要作用。早期的语义分割方法主要是基于机器学习方法[60-63],为语义分割技术发展奠定了基础。基于深度学习技术的发展和CNN模型不断地改良与创新,涌现一批优秀的CNN语义分割方法, 比有FCN、SegNet、U-Net、DeepLabV3+等在地基云图分割领域取得了出色的效果。

本文中云检测所述的地基云图分割任务本质上就是深度学习中的语义分割任务,用于语义分割的CNN模型通常为编码器-解码器结构(encoder-decoder),浅层网络由于其感受野(receptive field)较小,主要学习局部的细节特征表示,捕获云图像的纹理信息,而深层网络则学习整体的抽象特征,反映云图像高级语义信息。

(1)FCN。全卷积网络(FCN)是Long等[64]将CNN中的全连接层改成卷积层,利用反卷积(DeConv)操作将特征图上采样,不影响输入图像空间位置信息,最终在上采样的特征图上进行像素分类。此外使用跳跃连接可以融合不同层次的语义信息,起到了提高分割精度的效果。在上采样过程中融合不同的大小的特征即可得到不同的FCN,改进的FCN网络结构如图3所示。

(2)SegNet。SegNet由Badrinarayanan等[65]基于Caffe框架实现的语义分割深度网络,其结构于FCN相似,在Decoder部分做出改进。SegNet模型结构如图4所示,其在解码器部分的backbone主干特征提取网络为VGG16的前13层卷积网络,且解编码器网络层一一对应,最终经由Softmax分类器为每个像素预测概率。SegNet相比于前者全卷积网络有更高的分割精度,模型拟合速度较快,网络的训练速度有所提升。

图2 经典CNN模型结构图Fig.2 Structural diagram of the classic CNN model

(3)U-Net。U-Net是由Ronneberger等[66]提出的一种网络结构呈现“U”字形的编码器-解码器模型,因此称之为U-Net,适合小样本数据集。如图5所示,其网络模型包括左半边的编码器路径、中间层和右半边的解码器路径。编码器压缩特征路径使得特征图的分辨率依平方倍降低,逐步展现各像素点的空间位置信息。相似地,解码器扩展特征路径与之相反,将池化得到的各网络层和上采样输入层相结合来恢复图像。同时在不同层级特征图之间加入跳跃连接,可在一定程度上有更好的分割效果。与FCN相比,U-Net的编码器-解码器之间存在信息连接,有助于恢复编码器路径中丢失的空间信息。

(4)DeepLab V3+。DeepLab V3+模型由Chen等[67]提出的基于编码器-解码器结构的CNN模型,是DeepLab系列的最新模型,如图6所示。其编码器部分采用Xception网络[68]或者轻量级Mobilenetv2[69]作为主干网络,有效地减少了计算复杂度,提高了网络的收敛速度。同时引入空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)模块,空洞卷积具有增加感受野面积同时保持特征图大小恒定的优点,有效解决特征图尺寸减小的问题[70-71],提升了融合多尺度特征信息能力。

3.3 实验设计与参数设置

众多学者提出了诸多改进型CNN模型用于地基云图的分割任务,均取得了优异的分割效果。现选取上述CNN模型及其变体、部分在图像分割领域表现出色的模型共计八种,在标准地基云图数据集SWIMSEG上进行性能评估,实验的CNN模型分别是:FCN-8s、UNet、SegNet、PSPNet[72]、RefineNet[73]、PAN[74]、DeepLab V3、DeepLab V3+。

3.3.1 评估指标

为定量评估上述不同模型的提取和解码云特征的性能,评估指标有像素准确率(pixel accuracy,PA)、平均像素准确率(mean pixel accuracy,MPA)、F1评分,以及在分割任务中最为关键的联合平均交并比(mean intersection over union,MIOU),实验采用多种评估度量指标来全面评估上述CNN模型准确性[75],MIOU的计算公式为

图3 改进的FCN网络结构图Fig.3 Structural diagram of the improved FCN network

图5 U-Net模型结构图Fig.5 Structural diagram of the U-Net model

图6 DeepLabV3+模型结构图Fig.6 Structure diagram of DeepLabV3+ model

(1)

式(1)中:q+1为包含背景天空在内的类比个数;pij为真实值为i类像素却被预测判定为j类像素的数量。

3.3.2 实验设置和数据集准备

实验引入了迁移学习(transfer learning, TL),迁移学习的优点在于可将MobileNetV2、Xception、ResNet50等预训练模型用作特征提取主干用于地基云图分割任务中,大大加快了训练速度和准确率,同时使用微调(fine-tuning)的方法使参数适应本次实验的SWIMSEG数据集,实现正迁移。

本实验利用数据增强技术来扩充SWIMSEG数据集,达到6 078张云图图像。随后按照9∶0.5∶0.5的比例分别分为训练集、验证集和测试集。在处理器为Intel Core i7 11代,GPU为Nvidia GeForce GTX-2080TI的硬件环境Tensorflow框架下实现网络的训练、验证和测试。基于迁移学习思想,将训练模型进行冻结训练,在冻结阶段将模型backbone冻结,使得特征提取网络保持不变,对网络进行微调,可以有效防止权值被破坏,同时占用GPU的显存较小。本实验模型训练过程中,将冻结阶段批量大小(batch size)设置为8,解冻阶段减小为4。总训练世代epoch为100,将前50个epoch称为冻结阶段,后50个epoch称为解冻阶段。

3.3.3 参数设置

随后模型参数采取Adam优化器以0.001的初始学习率更新。同时使用了Momentum优化器和Poly学习策略,表达式为

(2)

式(2)中:lr表示训练过程中的学习率;epoch表示当前迭代周期;epochmax表示最大迭代次数;power表示动量,实验中设置为0.9。

训练阶段选择交叉熵损失(cross entropy loss)作为loss函数,来衡量训练后模型地预测结果与真实标签之间的相似性,定义为

(3)

式(3)中:yi表示真实标签值;y′i表示模型预测值。

同时引入Dice loss函数,其为一种基于区域的损失,计算公式为

(4)

式(4)中:X为预测结果的分割区域;Y为真实值区域;X∩Y为二者的重合部分。

3.4 实验结果与评估

如表3所示,使用评估度量指标在八种CNN实验模型的得分情况。经各评估矩阵度量指标数值对比,其中U-Net、PSPNet、DeepLabV3和DeepLabV3+基本高于其他分割模型,其中,U-Net和PSPNet的分割性能相近,还有DeepLabV3和DeepLabV3+的像素准确率都超过了90%,U-Net、PSPNet、DeepLabV3+的PA、MPA、F1都领先于其他模型,所以断定上述三种模型是效果最优的,而且DeepLabV3+ MIOU达到87.88%,其无疑是为八种实验模型中效果最优的。选用DeepLabV3+为基础做结构性改进是后续做地基云图分割的最优选择。

表3 主要语义分割模型在SWIMSEG上的 评估指标数据Table 3 Evaluation index data of main semantic segmentation models on SWIMSEG

选择U-Net、PSPNet、DeepLabV3+三种模型训练中的MIOU精度曲线图和loss损失曲线图, 如图7所示,三种模型训练过程的MIOU曲线都在5个epoch内很快地达到了70%,随后曲线趋于平整,呈现微弱的上升趋势。由于实验中设置了冻结训练和解冻训练,U-Net在解冻阶段开始时MIOU出现轻微的下降,随即回升,另外三种模型训练损失函数曲线也在在解冻阶段开始时出现loss损失函数的陡增,随即下降,在训练到80个epoch后趋于平稳,无明显下降趋势,说明模型趋于拟合。

本实验可视化了三种经典的语义分割模型U-Net、PSPNet和DeepLabV3+的部分云图分割输出结果图,如图8所示,以直观地比较三种模型的提取和解码云特征的性能。

观察图8可以很明显地看出,以上三种模型均可以实现对数据增强后的SWIMSEG测试集中云图的边缘和阴影较为精准分割。针对薄云区域的颜色信息不够明显,与天空背景存在交融情况,各类模型检测与分割效果不尽相同,如图8②,PSPNet和DeepLabV3+在云体上部的检测结果与数据集GroundTruth图存在偏差,但是在通过与原图进行视觉校对后发现,语义分割模型将薄云部分检测出来,说明可以较准确的反映深度和薄云形状,可见上述两种云图分割模型性能更加可靠,并且接近与实际图像。

3.5 模型泛化能力评估

此外泛化能力和鲁棒性是判定优秀语义分割模型的重要因素。将经SWIMSEG训练后的DeepLabV3+应用到CCSN数据集,并生成相应的云掩码,选取部分典型的云图图像和对应云掩码分割图来观察比较,如图9所示。

观察图9生成的预测图并结合目视比对可知,DeepLabV3+可以准确地检测出CCSN数据集中大多数云,云的边缘与天空分割得较为细致。如图9中第一列的积云、第二列的卷云和层云轮廓都实现了几乎完美的分割效果,零散云体、碎状云体也可以有效分割,另外图9⑤⑦两幅图呈现红色的云体也被有效的检测出,图9⑧背景为暗色调,云体呈白色的夜间云图也可以完美且精准地识别。由此断定,云图图像中的颜色差异性信息对最终的云天分割结果具有极大的影响力。

所以这类高精度高置信度的预测结果图可以处理为这类为未注释原始云图的真实标签,可有效增加带标签的地基云图检测分割数据集的数量。

对于该数据中新纳入的尾迹云,该模型能够实现很精准的分割出云掩码和清晰的边界,此外飞机也会被识别为云体,如图10所示。因此对DeepLabV3+模型的泛化能力和鲁棒性的可视化系统性评估验证了其优异的分割性能。

图8 三种模型可视化分割效果对比图Fig.8 Comparison of segmentation effects of three models

仍存在以下关键问题值得关注:

(1)云图存在的光照条件、云体深暗颜色信息会对分割造成不利影响。如图10所示,图②中红色夕阳背景下颜色相对较深的晚霞云部分被误判为天空,背景天空呈现红色,却被识别为云体。图④卷层云分割效果收到光照的影响较大,图像中光晕部分也被误分割为云体。第二列图⑤图⑥积雨云中底部颜色较深的云体部分会被误分割为天空。所以对于颜色较暗或者较亮、云体较为稀薄、云块较不明显的部分,模型不能有效的捕捉到其相应的云特征,亦或者是该区域云特征相较于其他特征显得较不明显,模型在训练过程中未能充分学习到此类细致的云特征。

(2)分割模型会误判地基云图中水体、山脉、草地植被等元素,例如图10中图⑦图⑧最后积雨云图像,模型将图中下方的湖面和草地均识别为云体,存在严重的误判。原因可能是DeepLabV3+模型采用了仅包含云体与天空的SWIMSEG数据集进行训练,只对云和天空有较高的分割准确率。

因此,在未来的数据集中添加不同光照条件、颜色差异性大、存在干扰因素、存在噪声、分辨率较低的地基云图像是不可或缺的,有助于分割模型能够充分学习云图细节信息及干扰因素特征,提高自适应云图分割模型的泛化性和鲁棒性。

4 总结与展望

针对最新基于语义分割深度学习的地基云图自适应分割研究进行介绍,对近年来的地基云图分割任务研究进展做出了详细的概括。随后介绍了国内外认可度很高的几类适用于语义分割的地基云图公共数据集,此类数据集与性能更复杂的语义分割模型在地基云图检测分割领域得到评估和应用,也解决了之前因数据集匮乏、数据量小等问题造成的困扰。然后介绍了卷积神经网络的基本理论,以及经典的语义分割模型,随后基于迁移学习思想对语义分割模型在地基云图分割任务上的性能进行定性分析和综合性评估,实验中使用SWIMSEG数据集对八种经典的语义分割模型进行训练和预测,具体分析了三种性能较为优异的模型MIOU和损失函数曲线图,并可视化了三种高效模型的云图预测分割图后进行细节对比,分析其提取云特征并解码预测的能力,最终选择出云图自适应分割性能较为优异的DeepLabV3+模型,最后无标签注释在CCSN数据上生成相应的预测分割图,经细节部分比对来评估其泛化能力和鲁棒性。

现阶段的地基云图数据集日益扩展,语义分割模型日渐改进发展,本文对地基云图自适应分割技术发展提出以下展望。

(1)目前的研究学者已经开发出很多标签置信度较高的数据集,受到了众多研究学者的认可,期待有更多数据量充足,云图种类齐全,包含不同光照条件,颜色差异性大,可有效区分干扰因素的优秀带注释的地基云图数据集的发布。

(2)学者们把很多新的语义分割模型应用于地基云图分割领域,期待有更适合地基云图检测分割模型的出现。现阶段的语义分割模型范式多采用编码器-解码器构型,另外生成对抗网络、注意力机制等都在图像识别领域取得良好表现,可以与编码器-解码器结构相结合,提出更多优异的分割模型,实现对地基云图有效检测。

(3)近期热门模型Transformer[76-77]兴起于自然语言处理NLP领域,由于其依赖于自注意力机制(self attention,SA)[78]来学习判别特征,已经有学者将其引入至计算机视觉领域,可以有效避免基于卷积神经网络CNN学习特征表示时由于感受野较小而导致的全局信息丢失问题,取得了瞩目的效果。可以尝试将Vison Transformer[79]应用于地基云图分割任务中,实现对云天的高效分割。

4.此外当前基于深度学习的地基云图检测分割技术的研究较少的在预测算法上的创新,普遍在模型改进上验证评估,希冀涌现更多更新颖更适用的地基云图检测和预测算法,推到地基云图分割任务领域发展和进步。

猜你喜欢

云图语义卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
语言与语义
成都云图控股股份有限公司
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
黄强先生作品《雨后松云图》
基于TV-L1分解的红外云图超分辨率算法
“上”与“下”语义的不对称性及其认知阐释
云图青石板
认知范畴模糊与语义模糊