基于极化分解和集成学习的PolSAR 影像分类

2020-10-21姜琦刚

农业工程学报 2020年16期

肖艳，王斌，姜琦刚，闻雅

（1. 长春工程学院勘查与测绘工程学院，长春 130012；2. 长春市测绘院，长春 130021；3. 吉林大学地球探测科学与技术学院，长春 130012）

0 引言

有效的 PolSAR（Polarimetric Synthetic Aperture Radar，PolSAR）影像分类技术是PolSAR 成功应用的基础[1]。然而相比于比较成熟的PolSAR 成像技术与系统设计，PolSAR 影像分类技术的发展相对滞后，严重制约了PolSAR 技术的应用，因此，开展PolSAR 影像分类技术研究对提高PolSAR 系统应用水平具有重要意义[2]。

相比于单极化SAR，PolSAR 测量的是目标的极化散射特性，能够获取目标在多个极化状态下的电磁波散射图像[3]。因此，PolSAR 数据的优势就在于其包含的丰富极化信息。如何充分利用极化信息进行分类一直是PolSAR 影像分类研究的热点问题[4]。根据极化信息利用方式，PolSAR 影像分类方法可归纳为3 类：直接利用散射矩阵和散射矢量的方法、直接利用相干矩阵和协方差矩阵的方法以及利用目标极化分解的方法[5]。相比于前2种方法，利用目标极化分解方法所获得的分类结果能更好的揭示地物散射机理，有助于人们对影像的理解。根据分解机制及针对目标的不同，研究人员相继提出了多种目标极化分解方法，较为经典的有 Krogager 分解[6]、Huynen 分解[7]、Barnes 分解[8]、Cloude 分解[9]、H/A/α分解[10]、Freeman2 分解[11]、Freeman3 分解[12]、Yamaguchi分解[13]、Neumann 分解[14]、Touzi 分解[15]、Holm 分解[16]、Van Zyl 分解[17]和Pauli 分解[18]。这些目标极化分解方法在PolSAR 影像分类中都得到了广泛应用。

总结PolSAR 影像分类研究现状，发现现有利用目标极化分解的分类研究大都仅利用了一种极化分解方法。然而，目前发展的众多极化分解方法中，哪一种方法所提取的特征最能反映地物本质特征、最利于分类精度提高，还尚无定论。Shimoni 等[19]提出不同目标极化分解方法都应被用于土地覆被分类，因为其强调了不同的地物类型。近几年，陆续有研究者在PolSAR 影像分类中同时采用多种目标极化分解方法，并取得了较好的分类效果。Qi 等[20-21]利用各目标极化分解方法提取出极化参数后，将提取的所有极化参数合成为一幅多通道影像，然后进行分类。尽管这些研究通过引入多种目标极化分解方法获取了很多极化参数，但出于“维数灾难”的考虑，其并未将提取的极化参数全部用于分类，而是通过特征选择方法筛选出小部分最有用的进行分类，造成了极化信息的严重浪费。

集成学习技术的发展为上述问题的解决提供了思路，在集成学习框架下嵌入目标极化分解方法能够将极化信息有效利用起来，从而提高PolSAR 影像分类精度。鉴于此，本研究提出了一种基于目标极化分解和集成学习的PolSAR 影像分类方法。考虑到面向对象方法通过以区域作为分类基本单元，能更好地抑制PolSAR 影像中相干斑噪声对影像信息的破坏[22-23]，所以提出的方法采用面向对象分类方式。

1 材料与方法

1.1 研究区与数据源

1.1.1 研究区概况

本研究的研究区位于吉林省长春市的南部（43°39′58″N～43°51′10″N，125°17′52″E～125°34′45″E），包括长春市主城区和双阳区的部分区域，如图1 所示。

图1 研究区位置示意图Fig.1 Location map of study area

1.1.2 数据源

本研究选用全极化 RADARSAT-2 影像作为数据源（图2）。RADARSAT-2 是一颗搭载C 波段传感器的高分辨率商用雷达卫星。本研究所用RADARSAT-2 影像的获取时间为2016 年8 月1 日，成像模式为精细全极化（即极化方式包括HH、HV、VH、VV 共4 种），产品模式为单视复型数据（Single Look Complex，SLC）。该影像工作频率是5.4 GHz，标称空间分辨率为8 m，在方位向和距离向的像元尺寸分别为5.49 和4.73 m，近端入射角41.07°，远端入射角42.46°，影像覆盖范围为25 km×25 km。

图2 RADARSAT-2 PolSAR 影像（Pauli RGB 合成）Fig.2 RADARSAT-2 PolSAR image (Pauli RGB composition)

于 2016 年 7 月 30 日至 2016 年 8 月 3 日开展野外调查工作。研究区土地覆被类型包括耕地、林地、草地、居民地、道路和水体6 种。本研究共计采集了565 个样本区域，图 3 是各地类样本分布情况。将采集的样本分为两组，一组为训练样本，一组为验证样本，各地类样本的分组情况如表1 所示。

图3 各地类的样本分布图Fig.3 Distribution map of samples for each class

表1 各地类样本数量Table 1 Numbers of samples for each class

1.2 理论背景

1.2.1 极化分解

雷达目标一般分为确定性目标和分布式目标 2 种。在单色波照射下，确定性目标的散射波是完全极化的，其散射特性可以用极化散射矩阵进行表征；而对于分布式目标，在任何波照射下，其散射波都是部分极化的，分布式目标的散射特性可以用协方差矩阵、相干矩阵等进行表征[24]。

极化散射矩阵能够记录并描述散射过程中目标的极化变化信息。极化散射矩阵S的定义如式（1）所示

式中对角线元素Shh和Svv为“同极化”项，非对角线元素Shv和Svh为“交叉极化”项[24]。

3×3 视相干矩阵T3和协方差矩阵C3的定义分别如式（2）和（3）所示

式中* 表示共轭，|·|表示模，〈·〉表示时间或空间集合平均[24]。极化分解就是基于雷达目标的散射矩阵、相干矩阵或协方差矩阵来实现的。

1.2.2 集成学习

按照成员分类器组合的形式，集成学习方法可分成串行方式和并行方式 2 类。串行方式的多分类器组合方法是指前一个分类器分类结果的输出为后一个分类器的输入。并行方式首先分别利用每个成员分类器独立地进行分类，然后根据某种策略将各成员分类器的分类结果进行合成。

成员分类器分类结果的合成方法中，投票法是最简单，也是应用最广泛的一种[25]。但传统投票法忽略了不同成员分类器分类性能的差异，为将该差异融入到合成结果当中，一些学者提出了加权投票法。在加权投票法中，不同分类器根据其性能被赋予不同的权值。

多分类器集成的效果除了受参与集成的成员分类器自身分类性能影响外，还与各成员分类器之间的差异程度有关[26]。一般来说，差异性越大，集成效果越好。衡量这种差异性的方法就是差异性度量。本研究采用熵值度量法衡量成员分类器之间的差异，熵的计算如式（4）所示

式中N为验证样本的数目，L为成员分类器个数，[ ]表示取整操作，l(zm)表示正确分类样本zm的成员分类器数量。E取值范围为[0, 1]，值越大代表差异性越大。

1.3 面向对象分类过程

PolSAR 由于在成像过程中进行相干处理而产生大量的相干斑噪声，所以需要先进行滤波处理[27]。考虑到refined Lee 算法[28]在滤波过程中既能充分保持数据极化特性，同时又能避免不同通道间的串扰，所以本研究采用refined Lee 滤波算法对RADARSAT-2 影像进行相干斑抑制，通过多次试验，将滤波窗口设置为5×5。

1.3.1 目标极化分解

将 PolSARPro_v4.1.5 软件提供的所有目标极化分解方法都用于分类，通过这些目标极化分解方法，共提取了61 个极化参数，如表2 所示。

1.3.2 多尺度分割

利用 ecognition9.0 软件的多尺度分割模块对多通道影像进行分割。鉴于Pauli 分解常被用于表示一幅PolSAR影像中所有的极化信息，所以本研究利用Pauli RGB 合成影像的3 个图层进行分割，3 个图层被赋予相等权重。在分割过程中，需要设定颜色因子、形状因子和分割尺度的值。颜色因子与形状因子是相对的，这 2 个参数值之和为1，多数情况下，颜色因子对于创建对象提供了主要信息，而形状因子值越小，分割对象在形状上的差异越大；对于尺度参数，其值越大，分割所得对象越大。本研究进行了多次试验，最终设定颜色因子、形状因子、分割尺度的值分别为0.9、0.1、30。

表2 不同极化分解方法所提取的极化参数Table 2 Polarimetric parameters extracted using different polarimetric decomposition methods

1.3.3 特征提取

因为用不同极化分解方法所提取极化参数的个数不同，所以能从不同极化分解方法中提取出的特征数量也不同，如表 3 所示。对于任一种极化分解方法，其对应的特征可以被归纳为如下4 类（其中n为利用该极化分解方法所提取极化参数的个数）：

1）4×n个灰度特征：n个图层的均值、标准差、最小像素值和最大像素值。

2）8×n个纹理特征：n个图层的均值、标准差、熵、同质度、对比度、非相似性、角二阶矩和相关性（采用灰度共生矩阵（Grey Level Concurrence Matrix，GLCM）来描述对象的纹理特征）[29]。

3）2×n个空间关系特征：对象邻域的平均差分、对象邻域的平均差分（绝对值）。

4）11 个形状特征：各个对象的面积、边界长度、长度、长宽比、宽度、不对称性、边界指数、紧凑性、密度、形状指数、圆度。

1.3.4 特征选择

采用PSO_SVM 封装算法进行特征选择[30]。分类器和搜索算法是封装特征选择算法的 2 个组成部分。PSO_SVM 算法以粒子群优化（Particle Swarm Optimization，PSO）作为搜索算法、支持向量机（Support Vector Machine，SVM）的分类精度作为评估函数挑选最优特征子集[31-32]，其中SVM 选用径向基函数为核函数。采用径向基函数时，容错惩罚系数C和内核参数γ是2 个必要调整参数，其取值直接影响分类精度，因此必须进行参数寻优。鉴于在封装算法中，特征子集的构成和SVM 核参数的取值是相互影响的，因此，本研究利用PSO 算法对SVM 核参数和特征子集进行同步优化。

表3 提取和选择的特征数量以及获得的最优C 和γ值Table 3 Numbers of extracted and selected features and obtained optimal C andγvalues

利用 PSO_SVM 算法分别对各目标极化分解方法的特征进行选择，获得特征的数量以及最优C和γ参数的值如表3 所示。

1.3.5 土地覆被分类

基于ecognition9.0 软件，利用获取的最优特征子集，以SVM 为分类器对研究区进行土地覆被分类，其中参数C和γ按照表3 进行取值，各目标极化分解方法的分类结果如图4 所示。

针对各极化分解方法对应的分类结果，分别利用验证样本建立精度混淆矩阵，该矩阵包括 4 个统计量：生产者精度（Producer’s Accuracy，PA）、用户精度（User’s Accuracy，UA）、总体精度（Overall Accuracy，OA）和Kappa 系数，如表4 所示。

1.3.6 多分类器集成

参与集成的成员分类器数量并不是越多越好，成员分类器自身的分类性能会直接影响集成效果。因此，应选用分类性能较好的成员分类器进行集成。本研究将Kappa 系数>0.60 的9 种目标极化分解方法（Pauli、H/A/α、Freeman2、Freeman3、Yamaguchi3、Yamaguchi4、Neumann、Touzi、Van Zyl）的分类结果用于集成。多分类器集成的效果除了受参与集成的成员分类器自身的分类性能影响外，还与各成员分类器之间的差异程度有关，所以在集成之前，需要对成员分类器间的差异性进行度量。如 2.2 节所述，本研究选用熵值对 9种成员分类器的所有组合形式的差异性进行度量。在所有组合中，由 Pauli、Freeman3、Yamaguchi4、Neumann、Touzi 和Van Zyl 6 种极化分解方法的分类结果构成的组合熵值最大，为0.282 7，所以最终选取了该组合进行集成。本研究中，特征选择、差异性度量以及多分类器集成都是通过Matlab 2010b 语言平台编程实现。

2 结果与分析

2.1 集成结果

采用并联方式结合加权投票法对 Pauli、Freeman3、Yamaguchi4、Neumann、Touzi 和 Van Zyl 6 种极化分解方法的分类结果进行集成，得到的分类结果如图4 所示，基于该分类结果建立的混淆矩阵如表5 所示。

从表 4 可以看出，16 种极化分解方法中，基于Yamaguchi4 的分类结果精度最高，总体精度和 Kappa系数分别为 88.00%和 0.84，基于 Barnes1 的分类结果精度最低，总体精度和 Kappa 系数分别为 55.84%和0.40。按照Kappa 系数从高到低对16 种极化分解方法进行排序，结果为 Yamaguchi4、Pauli、H/A/α、Touzi、Neumann、Freeman3、Van Zyl、Yamaguchi3、Freeman2、Krogager、Cloude、Holm1、Holm2、Huynen、Barnes2、Barnes1。

集成后分类结果的总体精度和 Kappa 系数分别为92.49%和0.90，比集成前精度最高的Yamaguchi4 的总体精度和 Kappa 系数分别高出了 4.49%和 0.06。对比表 4和表 5 发现，通过多分类器集成后，地类的生成者精度和用户精度整体上都有所提高，但从单个地物角度看，并不是所有地类的生产者精度或用户精度都比各成员分类器的高，比如Pauli 的水体的生产者精度为100.00%，而集成后的水体的生产者精度为99.92%；Van Zyl 的道路的用户精度为 98.62%，而集成后的道路的用户精度为96.47%。可见，通过多分类器集成，尽管能提高整体分类精度，但并不能保证所有地类的生产者精度和用户精度都得到提高。

表5 提出方法的分类精度Table 5 Classification accuracy of the proposed method

2.2 与其他方法对比

如引言部分所述，近几年，陆续有研究者在PolSAR影像分类中同时采用多种目标极化分解方法，并取得了较好的分类效果。其中较多研究都是先利用各目标极化分解方法提取出极化参数，并将所有极化参数合成一幅多通道影像，然后对多通道影像进行特征提取和特征选择，最后利用选择的最优特征子集进行分类。本研究将该方法作为对比方法，以进一步验证提出方法的有效性。利用对比方法对RADARSAT-2 影像进行分类，所用极化参数包括：Pauli_a、Pauli_b、Pauli_c、Barnes1_T22、Barnes1_T33、 Cloude_T33、 H/A/α_T22、 H/A/α_T33、Freeman2_Vol 、 Freeman2_Ground 、 Freeman_Dbl 、Yamaguchi4_Odd、Yamaguchi4_Dbl、Yamaguchi4_Hlx、TSVM_alpha_s2、Holm1_T33和 VanZyl3_Vol，分类结果如图4 所示。对比方法的总体精度和Kappa 系数分别为90.74%和0.88，比提出方法的分别低1.75%和0.02。可见，提出的方法能更有效用于PolSAR 影像分类。对比方法通过特征选择仅保留了极少数特征用于分类，造成了极化信息的严重浪费，这是其精度较低的主要原因。而本研究提出的方法则是对精度较高的目标极化分解的分类结果进行集成，实现了PolSAR 数据极化信息的充分运用，从而获得了更好的分类效果。

3 结论

本研究提出了一种基于目标极化分解和集成学习的PolSAR 影像分类方法，并以吉林省长春市部分区域为研究区，Radarsat2 影像为数据源，将提出方法应用于土地覆被分类中，得到如下结论：

1）按照获得的 Kappa 系数从高到低对16 种极化分解方法进行排序，结果为 Yamaguchi4、Pauli、H/A/α、Touzi、Neumann、Freeman3、Van Zyl、Yamaguchi3、Freeman2、Krogager、Cloude、Holm1、Holm2、Huynen、Barnes2、Barnes1。

2）集成后分类结果的总体精度和Kappa 系数分别为92.49%和0.90，比集成前精度最高的Yamaguchi4 的总体精度和Kappa 系数分别高出了4.49%和0.06。

3）将提出的方法与其他基于多种目标极化分解的分类方法进行对比，提出的方法获得了更高的总体精度和Kappa 系数，证明提出的方法能更有效用于PolSAR 影像分类。

如何充分利用极化信息进行分类一直是 PolSAR 影像分类研究的热点问题。本研究将目标极化分解方法嵌入在集成学习框架下，从而将极化信息有效利用起来。在利用集成学习技术进行PolSAR 影像分类的研究中，集成构造方法主要集中在基于变换样本和基于不同类型分类算法两个方向上，而目前基于目标极化分解的集成学习研究还非常缺乏。本次研究不仅为PolSAR 影像分类提供了一个新的研究思路，同时也拓展了集成学习中常规“多样性”的构建方法。