基于主成分和云模型的冬小麦种植信息提取方法

2022-03-21孙秀邦胡文运胡安霞

农业工程 2022年11期

孙秀邦，黄勇，李德，胡文运，胡安霞，田青

（1.宣城市气象局，安徽宣城 242000； 2.安徽省气象科学研究所，安徽合肥 230031；3.宿州市气象局，安徽宿州 234000）

0 引言

农作物主要类型识别是估算农作物面积、监测其长势及调查农业气象灾害发生情况的首要工作，也是农情遥感的基础[1-4]。随着卫星技术的发展，尤其是国内高分系列卫星和国外以哨兵系列卫星为代表的高分辨率遥感数据的高重访性和免费易得性，使得获取农作物种植面积和空间分布成为可能，并在实际工作中得到大量应用[5-8]。但是如何快速获取遥感分类结果并提高计算机自动分类精度，一直是遥感应用研究中最关心的问题之一。目前，农作物类型识别主要基于有无样本监督分类和非监督分类方法[9-13]。监督分类是利用训练样本结合智能分类器进行分类，但由于影像中地物种类的复杂性，即使选取的训练样本数量足够多，有时也无法准确提取感兴趣区地物类别，会出现一定程度的错分或漏分。非监督分类的分类速度快，但由于同物异谱、异物同谱现象存在，常使地物类别与实际地物类别的分类结果产生较大的误差[14-15]。

近年来，随着算法的成熟，以支持向量机、随机森林、神经网络等各种浅层和深层学习为代表的新算法逐步成为普遍关注的新方法。罗桓等[16]使用支持向量机与影像光谱特征进行影像分类提取县域冬小麦种植面积，效果明显好于传统监督分类方法。周珂等[17]用随机森林方法加入地形特征、纹理特征、NDVI 后再加入新特征NDVI 增幅，能够有效提高冬小麦的提取精度。张国良[18]针对影像中葡萄种植区的种植分布和纹理特征等特点，对U-Net 模型进行相关改进，提高对不同尺寸地物的识别能力。刘戈等[19]提出一种特征优选与卷积神经网络相结合的多光谱遥感农作物分类方法用以解决精细分类问题。以上作物识别方法因加入较多纹理特征使分类方法不具有重复操作性或因需收集或处理较多时相资料而使分类结果不能快速获得。此外，由于卫星传感器本身特性的影响和地物间相互干扰影响，很多分类方法没有考虑到遥感影像部分象元的模糊性和随机性，主要体现在图像中各个对象边界像素的“非此即彼”性和模糊像元对于一个分类对象隶属度的不确定性。因此，提出云模型的方法来解决模糊象元归属类别问题。

云模型是定性定量转换的一种认知模型，能够实现定性概念与定量数值直接的双向转换，把握遥感象元值的不确定性[20]。目前通过遥感手段提取冬小麦种植面积的方法颇多，而使用云模型方法对冬小麦种植面积提取的研究鲜有报道。借鉴前人在农作物面积提取的研究方法，本文以安徽省宣城市宣州区为研究区域，通过主成分分析方法提取主要成分，并在调查样方内提取小麦样本，使用云模型分类法进行影像分类，以实现冬小麦识别和种植面积的提取，以期为我国麦区县域冬小麦种植面积的精确提取提供方法参考。

1 研究区与数据

1.1 研究区概况

研究区域位于安徽省宣城市宣州区（东经118°28'～119°04'、北纬30°34'～31°19'），总面积2 533 km2，其中耕地总面积88 190.31 hm2，林地面积84 468 hm2[21]。属亚热带湿润季风气候，季风气候明显。光、热、水气候条件优越。年平均日照时数2 072.5 h；年平均温度15.8 °C，无霜期228 d；年平均降雨量1 324.8 mm，冬小麦、水稻、油菜、烟草都属于当地主要作物[22]。

1.2 研究数据及预处理

1.2.1 哨兵-2 数据

哨兵-2 号卫星影像数据，下载自USGS，该卫星携带多光谱成像仪（multispectral imager，MSI），高度为786 km，可覆盖 13 个光谱波段，幅宽达 290 km，地面分辨率分别为 10 、20 和 60 m，两颗卫星互补，重访周期为 5 d，从可见光和近红外到短波红外，具有不同的空间分辨率，此外哨兵-2 数据在红边范围内含有3个波段的数据，对监测植被健康信息非常有效[23]。选用2021 年3 月22 日2 幅哨兵卫星影像，属于Level 1C级别数据。当日卫星过境时，宣州区天气晴朗、无云，冬小麦正处于拔节期，油菜处于开花期，树木等植被处于返青期。

利用欧空局提供的Sen2Cor 工具对2 幅影像数据进行大气校正。选择表1 所列的波段利用SNAP 软件分别进行重采样，重采样后的数据分辨率为10 m，利用Envi5.3 合并所有波段数据，并拼接裁剪出宣州区范围内数据进行合成。

表1 哨兵-2A 光谱波段信息Tab.1 Sentinel-2A spectral band information

1.2.2 样本数据

结合国元农业保险股份有限公司宣城中心支公司投保小麦矢量边界数据和哨兵-2 卫星影像数据目视解译，采用人工交互方式选取了1 200 个小麦训练样本。验证样本来源于Google earth 中研究区局部高分辨率真彩色影像，影像拍摄时间为3 月26 日，象元分辨率为0.29 m×0.29 m，利用ENVI 软件在该影像中随机获取250 个感兴趣区，其中130 个为小麦类，120 个为非小麦类。

2 研究方法

2.1 主成分分析方法

主成分分析法（principal component analysis，PCA）旨在利用降维的思想，将已处理好的多波段图像中的有用信息集中到数目尽可能少的新主成分图像中，使这些主成分图像之间互不相关，而且将影像中的无用噪声集中到最后几个主成分上[24]。相关研究表明，该方法可减少或消除多波段或多时相之间的相关性对类间距离的影响，主成分分析对解决因相关性引起的异物同谱问题比较有效[25]。主成分算法如下：由多光谱图像数据求得影像数据的相关系数矩阵，由相关系数矩阵计算特征值和特征向量，求得主成分图像。在数学变换中波段变量的总方差不变，使第1 变量具有最大的方差，称为第1 主成分，第2 变量的方差次大，并且和第1 变量不相关，称为第2 主成分，依次类推。

2.2 云模型隶属度计算方法

云模型由概率论和模糊数学演化发展而来，能较好刻画事件发生的模糊性和随机性[26]。其定义：设 Ω是一个精确数值表示的定量论域，C 是 Ω上的定性概念，即一个描述性的语言值或指标，对于任意一个论域中的元素x，都存在一个有稳定倾向的随机数 µ∈[0，1]，称之为x对C 的隶属度，则x在论域 Ω上的分布称为云模型（cloud model），每个[x, µ(x)]称为一个云滴。云模型由期望（Ex）、熵（En）和超熵（He）3 个数字特征或参数来表征。Ex标定了云对象在论域中的位置，即云的重心位置，它100%隶属于这个定性概念。En是概念模糊度的度量，其大小直接决定了在论域中可被某一概念所接受的元素数，即亦此亦彼性的裕度。He也称为熵的熵，是En的不确定性度量。

在确定样本对类别的隶属度时，先用无需隶属度的逆向云算法，通过输入样本论域空间的定量位置xi，得到表示定性类别的3 个数字特征Ex、En、He。

（1）计算xi的平均值Ex=，求得xi的期望Ex。

（3）计算熵。

（4）计算超熵。

式中xi-某个遥感影像波段单个小麦样本象元值

n-该波段小麦样本象元数

利用正向云算法，通过输入逆向云算法中算得的表示定性概念的数字特征，得到每个测试象元xi及其对定性类别（小麦类别）的隶属度 µi(x)，具体算法如下。

（4）重复步骤1 和3，直到产生N个云滴为止，即生成云图。

2.3 精度评价

为了定量分析云模型提取效果，采用制图精度（producer's accuracy，PA）、用户精度（user's accuracy，UA）和Kappa 系数指标对小麦的提取结果进行精度评价。

2.4 技术路线

基于云模型的小麦提取方法的具体技术路线如图1所示，包括数据预处理、训练样本提取、主成分分析、逆向云发生器生成云模型参数、云发生器计算每个待分像素的隶属度、分类及后处理和精度评价等。

图1 小麦提取流程Fig.1 Flow chart of wheat extraction

3 结果与分析

3.1 主成分分析结果

由表2 可知，经过主成分变化后的多波段信息主要集中在少数几个主成分波段中，其中前3 个主成分波段信息量较大，包含了原数据97.7%的信息，于是选取前3 个主成分波段作为后面云模型计算的变量。通过特征向量矩阵分析来看：第1 主成分的信息主要由band8、band8A、band7 和band6 贡献，均为负值；第2 主成分信息主要由band12、band4、band11、band5、band2 和band3 贡献，均为正值；3 主成分信息主要由band11、band3、band12、band4、band2 和band5 贡献，有正值和负值。

表2 主成分协方差特征向量矩阵及统计分析Tab.2 Principal component covariance eigenvector matrix and statistical analysis

如图2 所示，经过主成分变换后整个图像的变化经直接观察有不甚明显的细微变换，但是放大到局部影像后就可以明显观察出变化。图2a 为原始数据的真彩色图像波段组合（R-band4、G-band3、B-band2），图像上地物主要有河流、小麦、油菜、裸地和森林，其中小麦与河道附近部分草地和林地区分不明显；图2b是经主成分变换后通道组合（R-PC1、G-PC2、B-PC3），图像上地物边界清晰度较高，小麦能较好与其他地物区分开。

图2 PCA 变换前后对比Fig.2 Comparison before and after PCA transformation

3.2 样本选取及“小麦”概念云模型

在第1 主成分、第2 主成分和第3 主成分数据中根据1 200 个训练样本点地理位置获取小麦象元值（位置相同），通过逆向云算法获取云模型的3 个主要参数（表3）。根据云模型的定义和小麦象元值分布规律，当象元值等于Ex时，该象元隶属于“小麦”概念的隶属度为1，如果象元值大于或小于Ex，则隶属度小于1，因此小麦的云模型应该是对称云模型。此外，从表3 可以看出， 0 ＜He＜En/3，因此样本对“小麦”概念的隶属度呈现出不确定性，云模型的云滴不是雾化状态，符合对所有数据开展基于云模型的小麦隶属度计算。利用python 程序，根据表3 中各主成分云模型参数，采用逆向云生成法，取1 000 个云滴，通过计算机仿真生成前3 个主成分图像的云模型（图3），云模型呈典型的泛高斯分布状态，横坐标越靠近Ex，云滴越集中，越偏离Ex，云滴越离散。

图3 “小麦”概念云模型Fig.3 "Wheat" conceptual cloud model

表3 主成分图像云模型参数Tab.3 Principal component image cloud model parameters

3.3 小麦分类结果

根据“小麦”概念云模型参数，利用云模型隶属度计算方法，分别对第1 主成分、第2 主成分和第3 主成分图像中每个象元值进行隶属度计算，取5 个云滴的平均值作为最终隶属度，得到每个主成分的隶属度图像。在ENVI 软件中进行目视解译发现，在第1 主成分隶属度图像中，小麦隶属度值普遍在0.5 以上，与水体、湖泊和森林等其他地物能明显区分开来（其值普遍＜0.01），但与油菜和部分建筑物（主要是屋顶为蓝色和白色的厂房）难以区分，因此第1 主成分信息难以单独提取小麦；在第2 主成分中小麦与其他所有地物具有明显的区分度，小麦隶属度普遍在0.35 以上，极少森林植被被错分为小麦；在第3 主成分中，小麦隶属度值普遍在0.5 以上，但与油菜、森林等能有很好的区分，与城市湖泊、河流和道路难以区分。因此采用第2 主成分和第3 主成分的信息，在ENVI 中利用波段运算，提取第2 主成分隶属度＞0.35，并且第3 主成分隶属度＜0.01 的象元，并赋值为1，其他像元赋值为0，此外为了消除小麦种植区域的斑点和空洞噪声，对初始分类结果进行聚类后处理，最终形成宣州区小麦种植分布情况。通过人工判读，小麦种植田块和非小麦田块均获得很好识别，二者基本无错分现象。此外，获取的小麦田块边界较为清晰，但在边界附近还是存在一定的错分和漏分，通过分布情况来看，宣州区小麦主要分布在宣州区养贤、朱桥、沈村、孙埠、五星、向阳和文昌等乡镇。狸桥、洪林、黄渡、新田、古泉和周王等乡镇少量种植，其他乡镇无小麦种植。

3.4 精度评价

对选取的250 个感兴趣区通过混淆矩阵开展精度评价，小麦提取结果的制图精度和用户精度分别为92.78%和99.90%，Kappa 系数为0.84，错分误差为0.10%，漏分误差为7.22%。选取宣州区养贤乡某区域做精度检验结果，如图4 所示，提取的田块信息与所有实际种植田块均能一一对应，提取的边界信息与实际田块边界也非常吻合，但也存在一定的漏分象元。将错分和漏分象元与验证数据中的高分辨率谷歌影像对比发现，错分象元主要为田块之间的小路或小埂，部分是由于在分类后处理过程中增加的小麦象元；漏分象元主要为植被长势较差、小麦密度较低区，在经过主成分变换后，第2 主成分象元值大约是正常象元值的一半左右，并且隶属度值为0.01～0.03。

图4 区域精度检验结果Fig.4 Regional accuracy test results

4 结论

基于哨兵-2 遥感影像数据，在主成分变换的基础上，根据小麦样本数据，采用无隶属度的逆向云算法计算小麦云模型参数，再利用正向云算法得出不同主成分的小麦隶属度，通过目视解译确定小麦提取阈值，采用面向对象的方法提取小麦种植信息，并进行精度评价，得出以下结论。

（1）哨兵-2 卫星数据波段较多，容易导致数据冗余信息的出现，影响对真正需要的小麦信息的提取，因此，在研究和数据预处理过程中，通过主成分变换对数据进行压缩非常有必要，而且可提高分类速度。此研究重点利用了第2 主成分和第3 主成分，舍弃包含大量地物信息的第1 主成分，这与以往多数研究利用第1 主成分进行地物分类有很大不同[27-30]。如果需要提取多个地物的信息，第1 主成分应该是需要利用的，如果提取单个地物信息，信息含量大的第1 主成分正因为信息复杂、交错，可能并不是最佳分析数据，需要根据实际情况进行挑选。

（2）云模型对遥感影像分类过程中的不确定性，以隶属度的形式来体现，方便实际提取小麦信息时，根据实际情况确定阈值。此外，小麦种植田块的隶属度值因小麦长势和密度的不同有较大的差异，本文中正常小麦的隶属度值普遍在0.8 以上，非小麦的隶属度基本为0，随着小麦长势变差或密度减小，隶属度值剧烈下降，部分非正常小麦田的第2 主成分象元值的隶属度甚至达到0.02，因此云模型对这部分小麦像元存在漏分现象，但云模型也是有指征意义的。

（3）云模型对小麦种植信息具有很好的把握，通过验证结果可以看出，该分类算法精度极高，对地块的识别基本无遗漏，而且错分、漏分现象少，相比于深度学习等当前流行算法，该方法理论简明，步骤简单，容易操作，不需要对同一数据多次循环计算。

本文仍存在不足之处：首先是在进行小麦信息提取、确立隶属度阈值时，需要依靠专业知识和经验，没有采用严格的阈值评价标准；其次是对于分类结果采取了人工后处理方法，虽弥补了局部空洞，但也在一定程度上掩盖了部分田块间的小路或小梗，增加了错分像元。后续将进一步针对影像分割和后处理方法进行研究。