Ⅱ类水体光学分类方法研究进展

2021-03-13宋子豪况润元

江西水利科技 2021年1期

宋子豪，况润元

（江西理工大学土木与测绘工程学院，江西赣州341000）

0 引言

水体光学特性及其形成机理的研究是提高水色参数遥感反演精度的前提[1]。在海洋水色遥感领域，Morel等[2]根据水体光学特性差异将水体分为Ⅰ类水体和Ⅱ类水体，Ⅰ类水体一般指大洋开阔水体，主要受浮游植物和其伴生物的影响，由于其成分相对单一，水体光谱变化比较稳定，可以用单一算法反演其水质参数，其光学特性研究比较成熟；Ⅱ类水体主要是近岸和内陆水体，受气候、陆地和人类活动的影响，物质组成较为复杂，水体光谱信息由多种因素共同主导，其光学特性远比Ⅰ类水体复杂，很难通过实地采样概括一个区域所有时期的水体光学特性。这些水域的生物光学特性在空间上也表现出很大的量值差异，这种光学特性复杂的水体使得区域生物光学算法的使用变得困难，对遥感影像的大气校正也是一种挑战，适用于Ⅰ类水体的算法也不再适用于Ⅱ类水体，因此有必要研究符合该类特定水体的算法[3～7]。

为了克服水体反演算法时空上的局限性，解决光学复杂水域中遥感信号反演精度的其中一种办法就是通过将具有相似光学特性的水体进行分组，分别为每一类水体单独开发一个特定的模型[8～10]。对Ⅱ类水体进行分类有助于识别光学复杂水域，分析水体环境变化，阐明某一类内不同属性之间的关系，并量化一个地区的生态参数和不同类别水体之间的本质差异，了解生物地球化学过程以及改善遥感影像大气校正，有望提高对不同类型水体的生物光学特性的认识和对水色模型应用条件的理解[4，7，9，11，12]。近年来的研究已经证明了水体光学分类的重要性，尤其是在提高水质参数反演精度方面，取得了突出的进展[8，10，13～15]。针对Ⅰ类水体，已经有很多学者开发了不同的分类方案，由于Ⅱ类水体的光学复杂性，在大多数情况下，适用于Ⅰ类水体的分类方法不再适用于Ⅱ类水体[16]。近年来，很多国内外学者致力于Ⅱ类水体光学分类的研究，分类的主要依据是水体所表现出的生物光学特性的差异，即不同水体的光学特征存在区别，常用的划分标准主要是水中浮游植物、非色素颗粒和CDOM等水色要素的主导成分以及各种表观和固有光学参数的相似程度，水体存在的类别数量则与水体的光学复杂程度有关。本文对国内外使用的分类方法进行评述，有助于进一步开展Ⅱ类水体光学分类的探索。

1 Ⅱ类水体光学分类方法研究现状

通过分析国内外Ⅱ类水体分类方法研究的相关文献发现，研究者在分类中使用的数据类型多样，但是主要以实测的水体高光谱反射率数据为主（图1左），高光谱数据以其超高的光谱分辨率使得对地物的分辨识别能力大大提高，在对水体光学特性的研究中具有独到的优势。分类方法的研究是学者较为关注的内容，通过整理研究者使用的分类方法（图1右），发现聚类分析法的应用最为广泛。进一步选取典型案例，将分类方法、研究者及年份、数据类型、研究区域、分类目的和分类结果等6个方面列于表1，发现研究者多使用单一数据及分类方法，研究区域主要分布于全球众多湖泊及沿海。Ⅱ类水体分类研究从进入21世纪开始兴起并不断发展，目前发展受高光谱高时空分辨率数据源以及定量水体信息解译方法制约。

表1 Ⅱ类水体光学分类方法典型案例

图1 研究中使用的数据类型和分类方法统计

2 Ⅱ类水体光学分类方法及应用

2.1 基于光谱形状的水体分类

水体的光谱特征主要是由水本身物质组成对光辐射的吸收和散射性质决定的，同时又受到各种水状态的影响[17]。光谱形状分类就是利用遥感反射率本身的反射特性，比较不同波段的反射率大小，或者建立光谱指数，通过对反射率或者光谱指数的分类实现水体光学分类[18～22]。不同成分的水体类别其光谱反射率曲线是不同的，一般来讲，由于藻类的低吸收，在560nm附近会出现明显的峰值，而在705nm附近有叶绿素a的荧光峰，且随着浓度的增加，峰高随之增加，反射峰位置也向着长波方向移动，580nm～680nm波段对不同的泥沙浓度出现峰值，700nm～900nm波段对悬浮物浓度变化最为敏感，CDOM在410nm附近有明显的吸收峰。这些敏感波段可以用来判断水中成分的大致情况，实现从光谱曲线的形状上对水体进行分类。Uudeberg等[23]通过比较不同浑浊度水体在不同波长范围的最大反射率值实现对水体光谱的分类，该方法使得每种水体类型都与特定的生物光学条件相关，具有直观性，但缺少了定量分析，因此还需要结合相关的相似度检验方法对分类结果进行检测。

2.2 监督分类法

监督分类又称训练分类法，通常从待分类地物中选取已知类别的感兴趣区，利用样本区的特征训练分类算法，从而完成对整个研究区的分类。在对水体进行监督分类时，由于不同成分的水体其像元亮度不同，且波谱趋势变化也不同，通过人工目视解译提取出各主要类别的特征样本，采用不同的监督分类算法实现影像或高光谱曲线的分类[24，25]。Ye等[26]提出了最值监督分类法对黄海水域进行分类研究，即在一定波长范围内根据光谱曲线的最大值和最小值，提取出各主要类别即特征样本谱，再通过先验知识对每条波谱设定阈值进行分类，该方法能够抓住最主要特征区分开各种形状的波谱，把变化趋势相同或相近的水体划归一类，将分类应用于MERIS影像，揭示了黄海水域不同水体的季节性变化和时空分布特征。由于该方法需要丰富的先验知识，样本的选取精度很大程度上决定了分类结果的准确性，因此目前应用较少。

2.3 聚类分析法

聚类分析属于无监督分类，是指不需要先验类别作为样本的条件下，主要根据统计性判别准则，按数据间的相似度进行归类合并的方法。将聚类分析应用于水体反射率，根据反射率曲线间的相似度对其进行划分，从而实现水体的分类是目前比较常用的方法。聚类的方法主要有K均值算法、ISODATA算法、模糊C均值聚类法（FCM）、层次聚类算法、Ward聚类法和两步聚类法。

2.3.1 K均值算法

K均值算法是一种经典的划分聚类算法，该算法通过优化最小二乘目标函数以最小化数据点和聚类中心之间的距离，然后反复调整聚类中心，直到满足条件为止[27～29]。Spyrakos等[3]将K均值算法应用于来自全球内陆和沿海水域的250多种水生系统的综合数据集，在聚类过程中使用间隙统计量来确定最佳的聚类数，将内陆水体分为了13种不同的类别，以及海洋环境中的9个类别，该分类为全球适用的地球水体观测计划的设计提供了框架。该算法需要事先指定聚类数K值，且对初始聚类中心的选择比较敏感，在实际应用中仍需要一定的先验知识。

2.3.2 ISODATA算法

ISODATA算法克服了K均值算法的不足，不需要人为地指定聚类数K值，并增加了对聚类结果的“合并”和“分裂”两个操作，可以自动调节聚类数目，迭代地将样本数据划分为较为理想的类别。Mélin和Vantrepotte[13]利用全分辨率SeaWIFS全球遥感反射率数据集，为沿海地区和边缘海域编制了一套训练数据集，运用ISODATA算法将数据集分成了16类，涵盖了从非常浑浊到贫营养各种状态，分析了不同区域之间的一般光学相似性，并对局部光学变异性进行了量化，该组光学水类型有效地分类了沿海地区、边缘海域和大型内陆水体。Guan等[30]利用ISODATA算法为鄱阳湖水域确定了4种光学水体类别，然后使用基于平方-马哈拉诺比斯距离的分类方案对MERIS影像进行分类，分析了鄱阳湖水域2003至2012年不同水体类型的时空变化，对分类结果进行验证，发现卫星分类的整体精度为91.2%，Kappa系数为0.863。

2.3.3 FCM算法

FCM算法是用隶属度确定每个数据属于某个聚类程度的算法。该算法通过迭代最小化目标函数，将给定的数据集聚类为指定数量的类别，数据点到特定集群的分配由其隶属度值决定，其隶属度值u介于0到1之间，隶属度值越接近1，则表示该数据点属于特定簇的确定性越高[4，11，31]。Majid Nazeer等[9]将 FCM 算法应用于香港沿海水域的分类研究，将Landsat TM/ETM+和HJ-1影像上的反射率值以及实测的叶绿素a浓度和固体悬浮物浓度数据3个数据集作为FCM算法的输入，通过多次修改聚类数目和模糊化参数以获得更精确的聚类结果，将香港沿海水域划分为5类，以便准确估算叶绿素a和悬浮固体浓度。FCM算法的优点是避免了由硬聚类方法产生的类型成员的尖锐边界，分类成员资格可以用作特定于类别的生物光学算法的加权系数，缺点是仍需要指定其他参数，即需要指定类别数目以及确定集群中模糊程度的加权指数。针对类别数目的指定，Moore等[5]提出使用有效性度量的方法来客观地评估聚类的最佳数量，并采用了10种有效性度量方法，理想情况下，有效性度量应给出相同的最佳选择，从而用于聚类数c值的输入；Bi等[32]提出了一种改进的FCM-m算法，针对不同数据集，通过优化模糊器参数m，实现更严格的隶属度值分配来降低非隶属集群的估计误差，结果表明，该算法性能优于原始FCM。

2.3.4 层次聚类算法

层次聚类算法是通过度量样本之间的亲疏程度以达到分类目的的聚类方法。在层次聚类分析中，通过比较输入的光谱值之间的成对距离来创建距离矩阵，以定义相似性或不相似性。Phillips等[33]对加拿大西海岸水体进行层次聚类分析，旨在改善复杂沿海区域的生物光学算法，首先对光谱数据进行经验正交函数分析以定义光学水变化的主要驱动因子，用于指示启动层次聚类分析的可能的类别数量，通过聚类定义了4种光学水体。层次聚类并不需要事先指定聚类数目，距离和规则的相似度容易定义，但是计算复杂度较高，异常值会对计算产生很大影响，因此应用比较少。

2.3.5 Ward聚类算法

Ward聚类法又称离差平方和法，其基本思想来源于方差分析。该方法通过最小化每个步骤中可形成的任意两个聚类的平方和来评估聚类之间的距离，对噪声和离群值的敏感性较低，规则的定义相对容易[34～35]。Vantrepotte等[8]利用Ward聚类法对东英吉利海峡、北海南部和法属圭亚那沿海的水域进行分类研究，通过该方法定义了4种光学类别水体，该项工作进一步证明了基于类的反演方法在光学复杂水域中获取生物光学产品的潜力和充分性。Ward聚类法不需要事先指定聚类数目，但是对最佳聚类结果的检验仍需要一定的经验和方法。

2.3.6 两步聚类算法

两步聚类算法是SPSS中常用的一种聚类方法，该方法采用数的极大似然估计值度量变量之间的距离，并能根据施瓦兹贝叶斯准则（BIC）或Akaike信息准则（AIC）等指标自动确定最佳聚类个数。冯驰、赵丽娜和Lyu等使用两步聚类法对从太湖、洞庭湖、巢湖、滇池和三峡水库收集的实测光谱数据进行聚类研究[36～38]，基于分类对内陆湖泊叶绿素a和悬浮物浓度进行反演，并对不同的反演算法精度进行评估，进一步证明了水体分类的潜力。两步聚类适用于规模较小的数据集，且聚类效果与以上几种方法相比不足，因此应用比较少。

2.4 多波段比值法

多波段比值法主要是利用敏感波段对水中成分的光谱反应，结合谱形变化和数学公式，建立划分规则实现对水体光谱的分类，此类方法直观判读效果好，定量化程度高，误分率较低。目前主要有：光谱斜率法，TD680、NTD675分类法和NS&ND分类法。

2.4.1 光谱斜率法

况润元等[39]提出了基于光谱斜率的水体分类算法，该方法是利用两个不同的敏感波段进行斜率计算，根据不同水体成分和浓度对斜率大小的影响对水体光谱进行划分，其基本公式如下：

其中：λi和 λj代表的是特征波长；Ri和Rj分别代表特征波长λi和λj对应的水体遥感反射率。通过分析不同水体的特征波长，将实测光谱数据分为4类，然后在LandsatOLI上选取采样点，根据其波谱形态建立基于斜率的分类算法，并应用决策树模型把鄱阳湖水体分为5类。Le等[6]在利用光谱斜率法进行水体分类研究时，对于特征波长的选取结合了悬浮物和叶绿素浓度对光谱曲线的影响，并采用两组斜率公式建立划分规则将太湖、巢湖和三峡水库水体分为了3类，基于分类对估算叶绿素a的半分析算法进行了校准和验证，结果表明分类可以大大提高光学复杂水中叶绿素a估算的准确性。Zhou等[40]开发了一种适用于环境卫星水体分类的斜率公式，该方法被应用于三峡水库高阳湖、汉丰湖和长寿湖的浊度动态变化研究，结果表明：基于特定类别的检索模型对复杂水域的浊度估算具有关键作用。

2.4.2 TD680、NTD675分类法

TD680（TroughDepths at 680 nm）水体分类方法是由Sun等[12]提出的，该方法是基于在680nm附近的反射率谷值与ISM/TSM（ISM：无机悬浮物浓度，TSM：总悬浮物浓度）比率存在显著相关性的一种水体光学分类方法，并给出了TD680的计算公式：

其中：式（2）为当（Rrs（λ1）＜Rrs（λ3））时的计算公式，式（3）为当（Rrs（λ1）＞Rrs（λ3））时的计算公式，Rrs（λ）为在波长λ处的反射率。通过设定阈值将太湖、巢湖、三峡水库和滇池的水体分为了3类，分别为：①类型一（TD680≥0.008 2sr-1），对应ISM/TSM≤0.5；②类型二（0.008 2sr-1＞TD680＞0sr-1），对应 0.5＜ISM/TSM＜0.8；③类型三（TD680≤0sr-1），对应 ISM/TSM≥0.8。Sun 等[41]还提出了NTD675分类法（Normalized Trough Depthat 675 nm），该方法是基于在675nm处的反射率谷值与Chl-a/TSM（Chl-a为叶绿素a浓度；TSM为总悬浮物浓度）比率存在显著相关的一种水体分类方法，其中NTD675由下式得出：

其中：nRrs（λ）表示的是波长λ处，相对于675nm处反射率的归一化遥感反射率，本质上，定义的NTD675表示归一化反射率在675nm处的波谷大小，使用nRrs（655）和nRrs（705）的连线作为基线。通过NTD675将太湖、巢湖、三峡水库和滇池的水体分为了3类，分别为：①类型一（NTD675≥0.092），对应Chl-a/TSM≥0.5水体；②类型二（0＜NTD675＜0.092），对应 Chl-a/TSM＜0.5水体；③类型三（NTD675≤0），叶绿素含量极低。利用测试数据对分类结果进行评估，表明第一类、第二类和第三类水体的分类精度分别为77.8%、87.8%和100%。与TD680相比，NTD675使用了表征颗粒差异的新因素Chl-a/TSM，与反射率之间的关系更紧密，且光谱反射波谷的中心波长从680nm移至675nm，这与叶绿素a的最大吸收值对应得更加合理充分。

2.4.3 NS&ND分类法

Huang等[42]基于水体反射率的光学形成机理，提出了结合归一化遥感反射率斜率NS和归一化遥感反射率深度ND两种分类标准对水体进行分类，其公式为：

其中：NS表示两个反射率峰值之间的斜率，分别为550nm和700nm处，Rrs-Peak（λ）表示的是在波长λ处的反射率峰值；ND表示的是在波长675nm处的反射率深度，以620nm和700nm处的反射峰值之间的连线作为基线，Rrs-foot（λ）表示的是在波长λ处的反射率谷值。NS受荧光高度和颗粒物散射的影响，ND受叶绿素a吸收的影响，因此这两个标准可以区分叶绿素a和颗粒物的不同浓度梯度，通过迭代优化方法确定标准阈值，将太湖水体划分为了4类，分别是：①类型一：低浊度生产水（NS＜-0.001 7且 ND＜0.21）；②类型二：低浊度高生产水（NS＜-0.001 7且 ND＞0.21）；③类型三：高浊度低生产水（NS＞-0.001 7且 ND＜0.09）；④类型四：高浊度高生产水（NS＞-0.001 7且 ND＞0.009）。研究表明基于该方法对水体进行分类，可以提高叶绿素a和总悬浮物浓度的模型检索精度。

3 结论与展望

从目前Ⅱ类水体光学分类方法的研究来看，实测高光谱和卫星影像反射率数据已经成为水体分类研究的主要数据来源。水体分类方法的研究上主要呈现两个趋势：一是将原有的传统分类方法应用于水体分类上，例如监督分类和聚类分析，其中利用监督分类对水体进行分类的研究较少，而聚类方法的使用则呈现出多样化的态势；二是结合数学方法和光谱曲线特征提出的新的分类方法，例如光谱斜率法，TD680、NTD675分类法和NS&ND分类法。不同的分类方法在进行具体分类时各具有一定的优缺点（见表2）。大量研究结果表明，对Ⅱ类水体进行光学分类能够帮助我们更好地认识复杂水体的光学特性以及提高水质参数的反演精度。

表2 Ⅱ类水体光学分类方法的比较

尽管国内外学者在水体分类研究上做了大量的工作，取得了不错的进展，但也存在一些问题：Ⅱ类水体类型多样，沿海水域与内陆湖泊同样存在光学多样性的差异，这使得适用于某一类水域的分类方法是否适用于其他水域还有待验证；也有针对同一水域开发出不同的分类算法，但在分类效果的优劣性上并没有一个客观而准确的评价，这将使得其他研究者在分类方法的选择上产生困难。关于未来Ⅱ类水体光学分类的研究应注重以下几个方面：①结合实测高光谱与多源遥感数据，深入研究水体光谱反射率曲线，遥感反射率包含了水体的定性和定量信息，基于反射率的水体分类存在着极大的优势，对探索更加有效的分类方法有着重要意义；②深入对大气校正算法的研究，探寻更为精准的大气校正模型，尽可能的消除大气作用对水体分类算法的影响；③深化对已有传感器在水体分类研究中的应用，不断将新的数据源应用于水体分类研究上，新的传感器不但在时空分辨率上有着优势，同时在光谱分辨率上有着极大的进步，如我国的高分五号和珠海一号卫星等，这对于监测水体类型的时空变化，探索水体光学性质的分布规律有着重要帮助；④建立统一的水体分类体系，目前存在的水体分类方法多样，但不具备普遍适用性，为已经进行过分类研究的Ⅱ类水体建立起一套完整的分类体系，收集已有测量的水体光学参数数据，探索表观光学性质、固有光学性质和水质参数三者之间的关系，以此探索具有普遍适用性的水体分类方法，从而实现更多Ⅱ类水体的精确分类。