APP下载

基于高分辨率遥感影像的青海湖沙柳河流域土地覆盖监督分类方法对比

2018-12-05成淑艳曹生奎曹广超韩建平汉光昭吴方涛

水土保持通报 2018年5期
关键词:高分辨率分类器流域

成淑艳, 曹生奎, 曹广超, 韩建平, 汉光昭, 吴方涛

(1.青海师范大学 地理科学学院, 青海 西宁 810008; 2.青海师范大学 青海省自然地理与环境过程重点实验室, 青海 西宁810008; 3.青海省第二测绘院, 青海 西宁 810008)

土地是人类赖以生存和发展的物质基础,土地覆被信息是进行国土资源规划、土地资源评价、土地资产评估等的重要条件。随着全球变化研究的深入,土地覆被信息提取已经成为一个研究的热点[1]。遥感技术因为其可以快速准确地提取地物类别信息而被越来越多的应用于土地覆盖分类中。目前,随着遥感技术的快速发展,高分辨率遥感影像数据已经成为了一个重要和关键的信息来源,其在光谱特征、空间特征和纹理特征等方面比一般卫星影像更具有优势[2],能够获取精度更高的地物信息。

区域土地覆盖分类信息是区域生态、经济可持续发展的基础数据支撑,科学地提取地表覆被信息,对地物精准分类,对于区域生态环境保护、生态和经济建设具有直接的影响[3]。目前对遥感影像分类最常规的计算机自动分类方法有监督分类和非监督分类法。很多研究表明监督分类精度要高于非监督分类,更适用于遥感图像的精确分类,因此目前大部分对地物的分类研究还是采用传统的监督分类方法。青藏高原高寒河源区自然环境独特,其土地覆被信息是青藏高原生态环境变化研究的重要组成部分[4],对于青藏高原土地资源规划、生态系统功能评价、生态环境保护与建设等具有重要意义[5]。为此,本文拟以青海湖沙柳河流域为研究区,以高分辨率遥感影像为数据源,通过监督分类方法的6种监督分类器,对流域地表覆被信息进行提取,探讨青藏高原高寒河源区的土地覆盖分类方法,以期为后续土地覆被信息提取提供技术支撑和相关参考评价标准。研究结果也可为青海湖流域土地资源现状评价、生态环境保护建设等提供数据来源。

1 材料与方法

1.1 研究区概况

研究区位于沙柳河流域,属于青海湖的河源地区。沙柳河位于青海省刚察县城西侧0.2 km处,是青海湖流域第二大河流,发源于大通山可可赛尼哈,整个流域海拔在3 036~4 694 m,落差较大。河流全长106 km,自北向南流入青海湖[6]。河源地区年降水量500~600 mm,河口地区为300 mm。每年6—9月为汛期,冰冻期6个月。整个流域植被类型以高寒草甸为主[7]。研究区属于高原大陆性气候,光照充足,日照强烈,冬严寒夏凉爽,天气多变,无明显的四季之分,气温年较差小而日较差大,雨热同期。

1.2 影像数据来源及预处理

本文以2景高分1号卫星影像和3景资源3号卫星影像为基础数据源。高分辨率影像数据来自于青海省第二测绘院。高分1号卫星是中国高分辨率对地观测系统重大专项天基系统中的首发星,搭载有2台2 m分辨率全色/8 m分辨率多光谱高分相机和4台16 m分辨率多光谱宽幅相机。资源3号卫星是中国首颗自主的民用高分辨率立体测绘卫星,搭载有1台2.1 m分辨率正视全色相机,2台3.5 m分辨率的前视和后视全色相机和1台5.8 m分辨率的正视多光谱相机。

由于植被生长季节地表信息丰富,不同地物反射的电磁波在影像上呈现的光谱和纹理特征不仅有利于提取植被覆盖信息,还易于区分其他的土地覆被类型,有利于影像的目视解译工作[8],因此本文选择研究区5—9月的高分影像作为数据来源,其中包括2017年的4景影像与2016年的1景影像。2017年高分辨率影像受云层、季相等的限制,使得2017年影像在数量上不足以用于研究区地表覆盖分类。考虑到所缺影像地区为研究区边缘地带海拔较高的山区,土地覆被类型以裸地为主,植被较少,在短时间内土地覆被状况不会发生较大变化,因此采用相邻年份的影像对该区地物分类的影响不大,从而选择2016年的1景影像作为代替补充。表1列举了本文所用的5景高分辨率遥感影像的具体信息。

表1 本研究所用遥感影像具体信息

1.3 研究方法

1.3.1 土地覆被信息提取方法 本文运用监督分类方法对青海湖沙柳河流域的地表覆被信息进行提取。监督分类法常用的分类器有6种,每种分类器具有不同的判别函数和判别准则,因而具有不同的分类精度和分类结果。下文分别将6种监督分类器做如下介绍。

(1) 平行六面体(parallelpiped classification)。根据训练样本的亮度值形成一个n维平行六面体的数据空间,其他像元的光谱值如果落在任何一个训练样本所对应的区域,就被划为其中。其尺度由标准差阈值所确定,标准差阈值则根据所选类别的均值确定[9]。此种分类器分类标准简单,计算速度快。

(2) 最小距离(minimum distance classification)。通过训练样本数据去计算每种类别的均值向量和标准差向量,然后以均值向量作为该类在特征空间中的中心位置,计算输入图像中每个像元到各类中心的距离,将像元归入到距离中心最小的类别中[9]。此种分类器分类算法简单,适用性强,计算速度快。

(3) 马氏距离(Mahalanobis distance classification)。通过计算输入像元到各训练样本的马氏距离(计算2个未知样本集的相似度的方法),统计马氏距离最小的即为此类别[9]。马氏距离既考虑离散度,也考虑到各轴间总体分布的相关(协方差),能够考虑到分类类别的内在变化[10-11]。

(4) 最大似然(likelihood classification)。假设每个波段每一类统计都呈正态分布,计算像元属于某一训练样本的似然度,将像元归为似然度最大的一类中[9]。此种分类器应用较为广泛,发展也较为成熟。

(5) 神经网络(neutral net classification)。用计算机模拟人脑的结构,用小的处理单元模拟大脑的神经元,用算法实现人脑的识别、记忆、思考过程并应用于图像的分类[9]。近年来此种分类器得到了广泛的应用。

(6) 支持向量机(support vector machine classification)。是一种基于统计学习理论的机器学习方法,可自动寻找对分类有较大区分功能的支持向量并构造分类器,最大化类别之间的间隔,分类准确率较高[9]。

1.3.2 土地覆被信息提取流程

(1) 训练样本选择及评价。监督分类的第一步是在影像上定义训练样本。训练样本的准确合理选择是监督分类的基础,也会直接影响分类精度的高低[12]。通过遥感影像的色调与亮度、纹理、形状与结构以及目标地物与成像时间的关系等特征,结合已有资料和野外工作的先知经验,对影像进行目视判读,确定地物的类别[13-14]。 应用ENVI软件提供的ROI Tool工具创建感兴趣区,根据研究区范围大小,在影像范围内选取足够数量的覆盖各种地物的训练样本,以克服偶然因素的影响[15],要保证训练样本具有代表性和典型性且在研究区内均衡分布[16]。选取训练样本后,通过ENVI软件的compute ROI separability工具,计算每个感兴趣区组合的Jeffries-Matusita距离和转换分离度,其值范围在0~2.0之间,若两值均大于1.9说明样本之间可分离性好,属于合格样本,小于1.8则需要重新选择样本,小于1就考虑将两类样本合成一类样本[17]。

(2) 执行监督分类。若训练样本合格,符合分类要求,则应选择一种监督分类器对研究区影像进行地物分类。若对分类结果不满意则需要重新选择分类器。本文的研究目的是探讨高寒河源区的土地覆盖分类方法,因此执行了6种监督分类器。

(3) 精度评价。对图像分类结果进行精度评价,一方面可以定量地检验分类结果是否理想,另一方面可以评价监督分类器的优缺点。ENVI软件提供了混淆矩阵(confusion matrix)和ROC曲线(ROC curves)两种对分类结果精度进行评价的方法。本文选择混淆矩阵的方法来对分类结果进行精度评价。混淆矩阵是将每个地表真实像元的位置和分类类别与输出图像中的相应位置和分类类别相比较,列出基准图像上的i类像元在分类图像中被分到j类的像元总数或者百分比[18]。通过计算的混淆矩阵,可以进一步计算出不同的分类精度估量指标。在ENVI软件输出的混淆矩阵报表中,用于评价分类精度的估量指标主要包括总体分类精度、Kappa系数、制图精度、用户精度等。总体分类精度等于被正确分类的像元总和除以总像元数,反映分类图中被正确分类像元占总像元数的比重,该值越大,表示分类效果越好,精度越高[9]。

Kappa系数是通过把所有地表真实参考的像元总数乘以混淆矩阵对角线的和,再减去某一类中地表真实参考像元数与该类中被分类像元总数之积之后,再除以像元总数的平方减去某一类中地表真实参考像元总数与该类中被分类像元总数之积对所有类别求和的结果[9]。Kappa系数是由Cohen在1960年提出的用于评价遥感影像分类结果的一致性检验方法,用来测定两幅图像之间的吻合程度,能够较准确地验证分类精度,现已发展成为遥感影像分类的主要精度评价方法[19-20]。Kappa系数分类评价标准[21-22]现已普遍地运用于影像分类精度评价中(表2)。

表2 Kappa系数分类评价标准

制图精度指分类器将整个图像的像元正确分为某类的像元数与该类真实参考总数的比率,即分类结果符合实际地物的比率[9]。该指标可以反映地物是否被准确分类,同时可以用来比较各种分类方法的好坏,制图精度与漏分误差互补,制图精度越低,漏测误差越高[23-24]。

用户精度指正确分到某类的像元总数与分类器将整个图像的像元分为该类的像元总数的比率,即分类结果符合用户定义地物的比率[9]。该指标用来反映分类图中各类别的可信度,即分类图的可靠性,用户精度与错分误差互补,用户精度越低,多测误差越高[23-24]。

本文根据野外实地调查数据,对照原始影像,在Google Earth 高分辨率图像上选择验证样本,生成用于混淆矩阵精度评价的地表真实感兴趣区,通过ENVI软件的confusion matrix using ground truth ROIs工具输出不同分类结果的混淆矩阵报表,并通过报表中的不同量化指标来进一步鉴别每一种分类结果和不同分类器分类精度的高低。

(4) 分类后处理。计算机监督分类后的结果只是初步的分类结果,一般无法直接应用,还需要进行后期的图像处理。分类后的图中不可避免地会产生很多小图斑,需要通过majority/minority 分析、聚类处理(clump)和过滤处理(sieve)等方法对小图斑进行剔除或者重新归类,从而得到最终理想的分类结果。若分类结果有错分和漏分现象,结合实地验证、先知经验和研究区其他高分辨率遥感影像对分类结果进行目视判读,通过ENVI classic对图像错分像元进行局部手动修改,以进一步提高分类结果质量。

2 结果与分析

2.1 训练样本可分离度

根据研究区遥感影像光谱、纹理等特征,通过目视判读并结合野外考察的先知经验,将该研究区的土地覆被分为草地、湿地、农田、裸地、水体、建筑6大类。计算了训练样本的可分离度,结果显示Jeffries-Matusita距离和转换分离度的值均大于1.8,样本之间的可分离性好,符合分类的标准(表3)。

表3 研究区训练样本可分离度

2.2 分类结果

本文选择了监督分类的6种分类器对研究区影像进行计算机分类,目的是寻求最佳土地覆盖分类方法。为了从细节上更好地辨别分类结果的准确度和6种分类器的分类精度,将6种分类器的局部分类结果图进行对比。

结合野外考察的先验知识观察6种分类结果图可知,平行六面体分类器的分类效果最差,将很多裸地和草地错分为水体,与实际地表覆被相差甚远,这与其分类原理和分类准则密切相关。平行六面体的分类准则是像素落在任一类训练样本分布区域,则就属于哪一类,若同时落在多个区域,则将其归为最后一个匹配的类别中,有时候在某些分类像素与训练像素光谱差异很大时也会被分为其中,因此存在较多错分现象[11]。最小距离分类器的最终分类结果将众多草地和裸地像元误分为湿地,也不符合实际。最小距离分类器的判别准则是首先根据训练区计算每个类别的平均值,以此作为类别中心,然后计算待判像素到每类别中心的距离,取距离最小的一类作为该像素的分类,因此在分类的过程中,真正影响分类结果的是各个类的均值,这是在若干先决条件下的简单分类,容易产生错误,因此分类结果精度较低[25]。马氏距离分类器对地表覆盖分类的局部结果,从结果中可以发现,马氏距离分类器对湿地的错分现象较为严重。马氏距离与最小距离相似,但马氏距离考虑了样本间相关性的影响,因此比最小距离的精度相对较高。

目视分析可知,最大似然、神经网络和支持向量机分类器的分类效果较好,结果较为理想。最大似然是基于贝叶斯准则的分类错误概率最小的一种非线性分类,也是机器学习中较为稳健的典型分类方法[11,25]。神经网络具有非线性、容错性和鲁棒性、自学习、自适应和自我调节等显著优势,在分类过程中没有任何前提假设,直接进行迭代运算,且在每次迭代过程中动态调节决策区域,一直计算到结果与实际的差异满足要求后停止,因此该方法具有强大的稳定性和优越性,可获得比传统基于统计的分类方法更高精度的分类结果[11,25-27]。支持向量机基于统计学理论,利用现有样本信息在模型和学习能力间寻求最佳折中,获得最佳泛化能力,从而令样本的分类误差极小化,在统计样本较少时,也能获得较好的统计规律,因此是一种优良的机器学习分类方法[11,28]。很明显,最大似然、神经网络和支持向量机分类器均具有优良的内部算法和分类准则,对地物进行分类均能获得较好的效果,但是计算时间也相对较长。

6种监督分类器有好有坏,各有优缺。在本文中,6种分类结果存在的共同的误差是,提取的湿地均比实际情况多,这原因是山体背阴面草地和湿地的光谱特征极为相似,分类器将背阴面草地误分为湿地的缘故,因此还需要细致的分类后处理。

2.3 精度评价

运用ENVI软件平台,通过一定的验证样本数据可以对影像分类结果进行精度评价。表4—6分别列举了不同分类器的分类精度估量指标,可以反映不同分类器的优劣及分类效果的好坏。

表4显示了不同分类器对不同地物的分类精度。平行六面体、最小距离、马氏距离、最大似然、神经网络和支持向量机的总体分类精度分别为51.76%,84.26%,89.96%,97.68%,96.46%,99.15%,Kappa系数分别为0.44,0.79,0.86,0.97,0.95,0.99,支持向量机的分类精度最高,其次为最大似然和神经网络,马氏距离和最小距离次之,分类精度最低的为平行六面体。在区分不同地物方面,最大似然、神经网络和支持向量机同时对草地达到最高的分类精度,对湿地和建筑的识别支持向量机精度可达最高,对于农田最大似然和支持向量机精度最高,而马氏距离和平行六面体分别对裸地和水体达到最高的分类精度。

表4 各分类器对研究区不同地物分类精度对比

表5为各分类器制图精度对比结果,对比各种分类器的制图精度可发现,平行六面体对草地、湿地、裸地和建筑的制图精度均较低,表明对这几种地物漏测现象严重,而最小距离对草地的漏测现象严重,马氏距离和最大似然对各种地物的制图精度较高,说明总体漏测误差较小,神经网络对裸地的漏测误差较大。支持向量机对各种地物的制图精度均较高,漏分现象较少。

表5 各分类器对研究区不同地物制图精度 %

从各种分类器的用户精度对比表(表6)可知,平行六面体对草地和湿地分类的用户精度非常低,说明这两种地物的多测现象非常严重,最小距离和马氏距离对草地和裸地的多测误差较高,最大似然对草地的多测误差较高,神经网络对湿地的多测误差较高,支持向量机对各种地物的多测误差均较小。

表6 各分类器对研究区不同地物的用户精度 %

2.4 制图及结果统计

本次分类结果中,支持向量机的总体分类精度和Kappa系数最高,制图精度和用户精度均较高,对地物的分类效果较好,分类精度满足应用的需求,但是也存在大量错分现象。以支持向量机分类器的结果作为分类的初步结果,在此基础上进行主要/次要分析、聚类和过滤处理。通过实地考察验证与先知经验,结合Google Earth 的高分辨率影像,对上一步后处理结果图进行目视判读,将错分地物进行细致处理使其正确归类,最终得到研究区地表覆盖分类结果(附图20,表7)。

表7 青海湖沙柳河流域地物信息

经遥感影像解译可得沙柳河流域的基本概况。沙柳河流域河流水体面积约19.03 km2,约占流域总面积的1.13%,干流偏流域右侧,左岸分布有较大支流,上游河道走向西北向东南,坡陡谷深,中游河道走向由北向南,河谷渐宽,水流分散,流经下游地势平坦区最终注入青海湖。整个流域内多为天然草场,其总面积约为1193.76 km2,约占流域总面积的71.09%,植被条件良好,覆盖度高。湿地主要分布在干支流两岸以及流域南部青海湖北岸,总面积约为172.02 km2,约占流域面积的10.24%。裸地主要分布在流域上游海拔较高的山区,总面积约为273.03 km2,占流域总面积的16.26%。刚察县城位于山体出口处,其建筑总面积约6.04 km2。山口以下为下游,地形开阔,广袤无垠,宽阔的冲积扇形成肥沃的草原,农田在其中零散分布,总面积约15.36 km2,仅约占流域总面积的0.91%。

3 讨 论

3.1 基于高分辨率遥感影像的监督分类方法在土地覆盖分类中的适用性

高分辨率遥感影像区分地物的精度较高,满足了对各类地物的遥感监测需求。基于高分辨率遥感影像,采用支持向量机、最大似然和神经网络分类器对研究区地物实现了良好的分类,说明这3种分类器在地处高寒河源区的青海湖沙柳河流域具有良好的适用性。

从3种分类器的分类原理和判别准则来说,其分别采用了结构风险最小化原则[28]、贝叶斯判决准则[25]和迭代算法[27],优越的分类准则和分类算法决定了它们高精度的分类结果,因此这3种分类器也被运用在诸多分类研究中。例如闫琰等[29]运用最大似然、神经网络和支持向量机3种监督分类器对某城市土地覆被进行分类,其中支持向量机的总体分类精度达到97.25%,Kappa系数达到0.96,神经网络和最大似然总体分类精度分别达96.91%和96.69%,Kappa系数均可达0.96,对地物的分类效果较好。张杰等[12]通过本文中用到的6种监督分类器对鄱阳湖滨湖区的土地覆被进行分类,结果表明支持向量机、神经网络、最大似然和最小距离4种分类器具有较高的分类精度。孙坤等[11]基于本文中的6种监督分类器对某山地丘陵地块进行分类,结果表明支持向量机、最大似然、神经网络的分类精度较高,最小距离和马氏距离次之,平行六面体的分类精度最低。诸多研究的结论和本研究结果是一致的,说明这是每种分类器普遍存在的特点,对不同研究区的适用性较强。

青海湖沙柳河流域自然环境独特,受人类活动影响较小,整个流域土地覆被大类较为单一,上中游为山谷地形,下游地势较为平坦,采用高分辨率遥感影像进行分类,效果较好。孙小飞等[30]基于高分1号卫星影像对青藏高原深切割区土地覆被进行分类,该研究区以高山地貌为主,植被覆盖率较高,水体、草地、林地等地物类型分布明显,采用最大似然、神经网络和支持向量机分类器均取得了较高的分类精度,其中支持向量机分类精度最高,总体精度达到91.67%,Kappa系数为 0.90,神经网络和最大似然的总体分类精度分别为87.50%和80.83%,Kappa系数分别为0.84和0.76。因此采用高分辨率遥感影像,选用精度较高的监督分类器在青藏高原土地覆被大类较为单一、地物分类明显的地区信息提取中具有优势。

3.2 基于高分辨率遥感影像的监督分类方法在土地覆盖分类中的不足

尽管支持向量机、最大似然和神经网络监督分类器可以达到较高的分类精度,但这并不代表分类结果一定理想。由于实际地表类型复杂多样,采用监督分类方法,计算机会仅根据地物光谱特征进行分类,结果中势必有错分和漏分的现象,与实际地表覆被信息有别。尤其是在有大量山体分布的地区,山体的阳坡和阴坡光谱响应有巨大差异[31],而阴坡对分类结果的影响不可避免,即使训练区选择准确,但分类结果还是存在大量错分现象[32]。本文中阴坡草地和湿地的光谱特征极为相似,6种监督分类器均出现将阴坡草地错分为湿地的现象。冯琦胜等[33]对甘肃省玛曲县沼泽湿地的研究发现,监督分类和非监督分类的方法因为阴坡的影响,都会造成湿地的错分和漏分现象。该研究还提出,通过专家分类方法引入坡度和坡向数据,排除了山体阴影、阴坡对沼泽湿地分类的影响,但是也会存在部分漏分的情况[33],因此仅仅依靠光谱特征来对地物分类存在误差。一些学者借助于其他方法显著提高了分类结果的可靠性,例如潘倩等[34]将康定县监督分类后的图像与高程、坡度、坡向等DEM辅助信息引入专家知识辅助决策分类中,显著提高了分类精度。常布辉等[35]采用监督分类方法和基于NDVI时间序列的决策树分类与监督分类相结合的方法对河套灌区沈乌灌域的耕地进行提取,结果显示,基于 NDVI 时间序列的决策树分类与监督分类相结合的方法比单纯监督分类方法的精度高13.42%。

本文结合原始影像、Google Earth的高分辨率遥感影像和实地考察验证,对初步分类结果进行目视修改与处理,将错分像元正确归类,显著提高了分类准确度。陈超等[32]以Quick Bird为数据源,采用监督分类方法对山东科技大学及周边地区进行地物分类,初次分类总精度为71.33%,存在较多错分现象,在后期对图像目视修改后,总分类精度达到93%。因此监督分类和目视修改相结合可以显著提高分类图质量,但此过程会加大工作者的任务量,费时费力。在今后的地物分类实践操作中,还需要考虑DEM、植被指数等因素对遥感影像分类的影响,以尽量减少后期工作量,同时进一步提高分类精度。

4 结 论

本文应用高分辨率遥感影像,使用监督分类方法的6种分类器对青海湖沙柳河流域的地表覆盖进行分类,得出以下结论:

(1) 通过高分辨率遥感影像,使用支持向量机分类器对地处高寒河源区的青海湖沙柳河流域的地表覆被信息提取效果最佳,但由于地表实际状况复杂,加上人工目视解译的误差和遥感影像本身“同物异谱”和“同谱异物”现象的存在,使得单纯依靠光谱特征进行分类后的图像存在一定的偏差,通过后期目视修改等分类后处理可以显著提高分类结果的准确度。

(2) 通过解译可知,流域内以天然草场分布最多,从上游到中游至下游全流域均有分布。裸地主要分布在上游海拔较高的山区。河流两岸地势较为平坦,湿地显著发育。流域下游地区水草丰茂,有农田分布于其中。整个流域植被覆盖度高,生态环境良好,适合于高寒农牧业的发展。

猜你喜欢

高分辨率分类器流域
压油沟小流域
高分辨率合成孔径雷达图像解译系统
沙颍河流域管理
青山湖生态清洁小流域
河南省小流域综合治理调查
基于实例的强分类器快速集成方法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
高分辨率对地观测系统
基于Curvelet-Wavelet变换高分辨率遥感图像降噪