结合多光谱影像降维与深度学习的城市单木树冠检测

2022-05-12奚祥书夏凯杨垠晖杜晓晨冯海林

遥感学报 2022年4期

关键词：降维波段树冠

奚祥书，夏凯，杨垠晖，杜晓晨，冯海林

1.浙江农林大学数学与计算机科学学院,杭州 311300;

2.浙江省林业智能监测与信息技术研究重点实验室,杭州 311300;

3.林业感知技术与智能装备国家林业局重点实验室,杭州 311300

1 引言

单木树冠检测是森林生态环境监测的一项重要研究（Zhen 等，2016）。尤其是在森林资源清查任务中，实地调查通常需要消耗过多的劳动力和时间成本（Puliti等，2019）。并且当森林结构较复杂时，人工实地调查往往难以开展。为更好地处理这些问题，以遥感技术为基础的单木树冠检测研究提供了有效的解决方法。

在单木树冠检测研究中，针对不同的数据源以及不同的林地类型选择一个合适的单木树冠检测算法是至关重要的（Ke和Quackenbush，2011）。在过去的一段时间内，常见的检测算法有以下几种：局部最大值法（Korpela等，2006）、分水岭分割算法（李丹等，2019）、谷底追踪法（Gougeon，1995）、区域生长法（Bunting 和Lucas，2006），多尺度分割算法（冯静静等，2017）等。这些算法通过定义单木的参数，如树冠形状，树冠顶点位置的阈值等，在影像内匹配这些规则来检测树冠。借助于无人机遥感平台的快速发展以及其灵活性，越来越多的研究开始对城市中的生态环境进行动态监测（董新宇等，2019）。城市中的林地不同于天然林，城市森林中地物类型复杂多样（Lee 等，2016）。此类无监督的算法在地物类型较少的纯林地中有较好的效果，但在地物类型复杂的林地中，很难通过手工设计出合适的特征以达到较好的检测效果。而深度学习强大的特征学习能力以及在多个领域成功的应用（Kellenberger 等，2018；Majeed 等，2020），使其结合遥感数据在多种类型地物共存的林地中达成树冠检测的目标成为可能。Wang 等（2019）研究了如何使用深度学习检测橡胶树冠，其将LiDAR 数据通过正侧投影变换转化为图像，再将图像输入到深度学习网络中，在仅部分枝干被遮挡的情况下可实现橡胶树冠100%的检测准确率。Weinstein 等（2019）则针对单木树冠检测研究中数据标注困难等问题，提出了一种使用无监督算法和点云数据用于生成标注数据的半监督方法。同时，Weinstein 等（2020）还研究了基于深度学习的树冠检测方法在不同类型林地中的泛化能力。

不同地物的光谱反射率存在着差异，多个光谱的数据比单一光谱能提供更多的特征（崔宾阁等，2019）。在部分基于深度学习的单木树冠检测研究中，有研究人员加入了多光谱数据，Osco 等（2020）使用卷积神经网络统计果园中果树的数量，并且分析了不同波段组合对试验结果造成的差异。Yiannis 等（2019）使用YOLOv3 网络统计柑橘树的数量，实验中将普通的RGB 影像换成了RNB（绿色波段换成了近红外波段）影像，结果中RNB 影像的统计结果要好于RGB 影像。Dai 等（2018）提出了使用三维点云数据分割树冠的新方法，证明了该新方法将多光谱点云数据作为数据源要好于单波段点云数据。

虽然这些研究结合了深度学习与多光谱影像，但如何将二者更好的结合需要进一步的探究。将多光谱影像作为深度学习的数据源时，通常需要对多光谱影像做降维处理，这一步骤基于两个主要原因：第1个原因是降低数据的冗余，减少深度学习算法运行所需时间。多光谱影像的多个波段存在冗余，并且深度学习方法需要大量的运算资源，降维处理可以减少所需运算资源并节省运算时间。第2个原因为使用降维后的多光谱影像可更加便捷和充分地应用迁移学习（Pan 和Yang，2010），借助迁移学习即使影像较少也可达到较好的检测效果。受限于自然环境或不同遥感平台自身因素（星载平台重访周期（Roth 等，2019），机载平台飞行时间（Mozgeris 等，2018）等），大规模的遥感影像获取仍存在一定难度，然而深度学习往往需要大量的数据才能达到理想的效果。迁移学习隶属于机器学习的研究范畴，它专注于存储已有问题的解决模型，并将其利用在其他不同但相关问题上。具体在深度学习的目标检测任务上，即使研究中用于训练的影像较少，利用经过大量图像训练得到的公共预训练模型有助于提升最后的检测结果。绝大多数的预训练模型只针对低维度的RGB 图像，因此需要对多光谱影像做相应的降维处理。

降维方法种类繁多，采用不同的降维方法处理多光谱影像得到的结果也会存在差异，同时这些差异将会影响最终的检测结果。然而目前基于深度学习的单木树冠检测研究中，如何使用不同降维方法以提升单木树冠检测的精度却少有关注。针对这一问题，本文采用3 种经典的深度学习网络，并结合多种降维方法得到的多光谱影像，用以检测研究区内银杏树冠。探讨了不同降维方法对使用深度学习的单木树冠检测结果的影响。

2 多光谱影像采集及降维方法

2.1 研究区概况

本文选取的研究区域位于浙江省杭州市临安区浙江农林大学校园内。地理坐标介于30°15′30″N，119°43′30″E附近，处于亚热带季风区，属于中亚热带季风气候；夏季长，春秋短，雨量充沛。春秋两季气候宜人，夏季气候炎热、湿润，冬季寒冷、干燥。研究区概况如图1所示。

图1 研究区概况图Fig.1 Overview of the study area

园区内共有植物3200 种，主要树种有银杏（Ginkgo biloba）、法国梧桐（Oriental plane）、马尾松（Pinus massoniana）、香樟（Cinnamomum camphora）、鹅掌楸（Liriodendron chinense）等。不同树种分布密集，树冠重叠相连，林地郁闭度高。且研究区内有人工建筑物、道路、湖泊、车辆、行人等物体，相较于森林中的场景更加复杂。

2.2 无人机多光谱影像采集系统

本文采用大疆创新科技有限公司的大疆“悟”INSPIRE 2系列无人机，搭载由美国MicaSense公司生产的RedEdge多光谱相机作为多光谱影像采集系统。RedEdge相机可对5个波段成像：蓝色（465—485 nm），绿色（550—570 nm），红色（663—673 nm），红边（712—722 nm），近红外（820—860 nm）。无人机多光谱影像采集系统具体参数见表1。

表1 无人机多光谱影像采集系统参数Table 1 Specifications of UAV image acquisition system

2.3 数据采集及预处理

银杏木材优质，具有生态、保健、药用和观赏价值，银杏树种在研究区内分布广泛多样，既存在稀疏样地，也有与其他植被交叠的样地，本文选取银杏树种作为研究对象。

飞行任务在2019-9-21—2019-09-27 执行，共6次。为增加数据的多样性，飞行任务的参数并不完全相同。1—2 次飞行任务时间在15：00 pm 之后，飞行高度40 m，3—6 次飞行任务时间限定在10：00—12：00 am，飞行高度为70 m。所有飞行任务执行时天气均晴朗无云。

通过无人机多光谱成像系统共得到4689 张（相机设置为自动拍摄模式，关闭相机时中断了最后一次拍摄，故影像总数量不为5的倍数）单波段多光谱影像。处理过程中需要先排除掉不含银杏树种的纯背景影像，再将其余的单波段影像5张为一组通过ArcMap 10.2 软件配准，并将配准过后的影像导出为5 波段的影像。5 波段的多光谱影像共计688张。

2.4 多光谱影像降维

目前的目标检测网络都是针对3波段影像而设计的，并且深度学习中的预训练模型均由来自公共数据集的RGB 影像训练得到。因此本研究中选择将多光谱影像降维至3个波段。

使用范围较广的多光谱数据影像降维方法可分为两种（赵庆展等，2016；刘雪松等，2012），一种是特征波段选择，从多个波段中按照一定的原则选取满足条件的波段；另一种是使用特征提取算法将5 波段影像压缩成3 波段影像。为获得最好的检测效果，除上述特征波段选择及特征提取算法之外，本文还选取了3种不同的波段组合，共生成5种波段降维影像。本文将各个波段编号，以便后文叙述：蓝（1）、绿（2）、红（3）、近红外（4）、红边（5）。

第1 种降维影像包括蓝、红、近红外（1、3、4）波段。该组合是通过比较最佳指数因子OIF（Optimum Index Factor）（Chavez 等，1982）得到的。OIF 是遥感中广泛应用的特征波段选择方法。OIF综合考虑了单个波段自身的标准差，以及波段之间的相关性。标准差越大，则波段的信息量越大，波段之间的相关系数越小，即相关性越小，则波段之间信息冗余度越低。通常的研究只在单幅影像中计算各个波段组合的OIF，本文中需要计算数据集中所有影像的OIF并求出均值作为最后的结果。本文中OIF计算公式如下：

式中，N表示影像总数量；i表示第i张影像；SDij表示第i张影像中第j个波段的标准差；j表示第j个波段；m表示用于组合的波段数量；CCik表示第i张图片中第k个波段组合的相关系数；k表示第k个波段组合；n表示m个波段中波段组合的种类数。

图2 不同波段组合和降低方法处理后的影像Fig.2 Images processed by different band combinations and dimensionality reduation methods

第2 种降维波段影像采用了PCA（Principal Component Analysis）算法（Wold等，1987）生成。主成分分析是一种数据特征提取方法，通过正交变换将高维的数据映射到低维空间，且经过变换之后的低维数据有最大的信息量，从而实现数据的降维。本文通过python 编程语言将5波段影像读取为矩阵，并作为PCA 算法的输入，最后将输出的3个波段保存为影像。

第3种波段组合是通过目视解译的方法选取而来，包括红边、近红外、红（5、4、3）波段。考虑到夏季银杏与相邻植被色彩相近，可能会影响树冠检测的效果，故本文将5波段排列组合得到共120 种不同的波段组合影像，通过目视解译选出了相邻植被与银杏树冠色彩差异较大的波段组合。

第4 种波段组合包括近红外、红、绿（4、3、2）波段。该种波段组合是标准假彩色的组成波段，标准假彩色波段组合在植被检测方面有广泛的应用。

第5 种波段组合包括红、绿、蓝（3、2、1）波段即广泛使用的RGB 影像。由于目标检测的网络预训练模型经过ImageNet 数据集中大量的RGB图像训练得到，故此种波段组合能更加充分的发挥预训练模型的性能。

3 基于深度学习的树冠检测

3.1 检测流程概述

（1）通过无人机多光谱影像采集系统拍摄研究区内银杏树冠。

（2）对采集的数据筛选，去除无银杏树冠的背景图片。

（3）将筛选后的原始单波段影像通过配准得到5波段的多光谱影像。

（4）根据不同波段降维的方法生成5 种数据集。将数据集划分为训练集和测试集，训练集和测试集中不包含相同的银杏树。

（5）将5 种训练集用于3 种网络的训练，得到共15个模型。

（6）在测试集上评估所有模型的检测精度，并调整网络的超参数，使模型有最好的检测效果。

检测方法的详细步骤如图3所示。

图3 实验流程图Fig.3 Flow chart of the experiment

3.2 目标检测网络

目标检测（Wu 等，2020）是指在图像中确定感兴趣物体的位置和类别。深度学习技术为目标检测研究提供了一个端到端的解决方案。通过卷积层，池化层，全连接层，激活函数，优化算法等组件合理的运用可以构造出强大的用于目标检测的深度学习网络。

目前主流的目标检测网络可分为two-stage 和one-stage 两种类型。其中two-stage 目标检测网络检测过程可分为两个步骤，第1步需要提取图像中感兴趣区域位置，第2步需要分类上一步取得的感兴趣区域，通过以上两个步骤便可得到影像中目标物体的位置及类别。

而one-stage 类型的目标检测网络则是将输入的影像划分为多个网格，在每个网格中生成不同尺寸的边界框，并且针对每个边界框给出置信度，依次判断该网络中，不同边界框中包含目标物体的可能性和类别。

通常来说，two-stage 目标检测网络的检测准确率较高，但因为需要两个步骤，所以网络训练或是测试的时间都较长。而one-stage 目标检测网络则与之相反，网络的运行时间较短，但检测的准确率要低于two-stage的目标检测网络。

为验证不同波段降维数据集与不同的目标检测网络的何种组合可以提高单木树冠检测的精度，本文选取了3 种不同的目标检测网络进行试验。包括经典的two-stage 目标检测网络Faster R-CNN（Ren 等，2017），one-stage 目标检测网络YOLOv3（Redmon 和Farhadi，2018）。此外还选择了基于Faster R-CNN的特征金字塔网络FPN（Lin等，2017）（以下简称为FPN-Faster-R-CNN）。

考虑到研究区内的银杏树年龄分布较广，且采集数据时无人机有多种飞行高度，影像中的银杏树冠有多种尺寸。在选取的3 个网络中，YOLOv3 以及FPN-Faster-R-CNN 加入了多尺度特征融合的检测方法，可以结合不同层次特征图的预测结果做出最后的决策，这样能有效提升不同尺寸物体的检测能力。针对本实验中不同尺寸的树冠可以给出更准确的检测。

3.3 数据集制作

数据集的标注使用开源labelimg 标注工具完成。研究人员通过标注工具在影像中绘制若干个矩形框以确定每个银杏树冠的边界，每个矩形框包含一个单独的银杏树冠，所有影像中绘制得到的矩形框坐标信息将保存在文件中。影像中难以区分的树木，研究人员通过实地调查确定具体边界。为防止数据泄露对实验造成影响，将数据集中688 张多光谱影像根据样地划分为训练集568 张，测试集120张，训练集与测试集中不包含相同的银杏树。

一组5波段经不同降维方法后得到的影像，其中树冠位置不变。针对一种降维方法制作得到的数据集标注文件，亦可用于其他数据集。红、绿、蓝（3、2、1）波段数据集的制作结果如图4（b）所示。

3.4 网络训练

所有波段降维方法得到的数据集共有5种，用于树冠检测的网络有3 种，为得到最好的检测效果，本文中训练了5×3个网络模型用于比较。不同的超参数如优化器的学习率、训练迭代次数，主干网络的选择等对网络的检测效果影响较大。为反映不同波段降维影像在树冠检测任务中的作用，并得到不同检测网络最好的检测效果，故同一网络在不同种类的数据集上超参数的设置保持一致，而不同网络之间的超参数根据各自的特性而选择。

网络训练环境的操作系统为Windows 10教育版1709，处理器为Intel（R）Xeon（R）CPU E3-1225 V5@3.30GHz，RAM 容量16 GB，并采用了NVIDIA GeForce GTX 1080 Ti（11 GB）。网络详细参数设置见表2。其中主干网络都使用了预训练模型的参数。

表2 网络详细参数Table 2 Detailed network parameters

3.5 评价指标

本文采用在测试集上取得的召回率（Recall），精确率（Precision）和平均精度AP （Average Precision）3 个指标作为评价模型优劣的标准。其中召回率针对于测试集中而言，表示了存在的银杏树冠有多少被正确检测。精确率则针对于网络的预测结果而言，表示所有预测得到的银杏树冠有多少是正确的。平均精度则表示了Precision-Recall 曲线下的面积，综合考虑了召回率与精确率，可用作评价模型效果的最终指标。相关计算公式如下：

式中，TP 代表检测正确的银杏树冠数量；FN 代表检测错误的银杏树冠数量；FP 代表未检测到的银杏树冠数量；p(r)代表的是从0 到1 区间内的Precision-Recall曲线。

4 实验结果与分析

4.1 不同波段降维数据集检测结果分析

不同网络在各个波段降维数据集上的检测结果如表3所示。综合表中信息可知：FPN-Faster-R-CNN 在近红外、红、绿（4、3、2）的波段组合数据集上效果最好，AP 值为88%。YOLOv3 在蓝色、红色、近红外（1、3、4）波段组合数据集上的AP值最低，仅达到77%。

表3 不同实验组合结果对比Table 3 Result comparison of each experimental methods and combination of bands

在不同波段降维数据集上的检测效果不同。近红外、红、绿（4、3、2）波段组合在3 种网络中的检测效果均最好，在3种网络中的平均精度为84.2%。可能的原因是在该种波段组合形成的图像中，银杏与相邻的植被色彩差异明显，轮廓清晰。蓝、红、近红外（1、3、4）波段组合的树冠检测精度最低，在3 种网络中的平均精度仅为79.3%，与最佳波段组合红外、红、绿（4、3、2）相差3.9%。通过OIF 指标选择出的蓝、红、近红外（1、3、4）波段组合虽然有最大的信息量，但其中银杏与邻近植被的色彩相近不易分辨，因此在3 个网络中测试所得的AP 值均较低。PCA 算法将高维数据映射到低维空间实现了波段的降维，但这样的变换并不能保留不同树种的光谱信息，且经过降维的影像中物体的纹理信息也受到一定的影响，因此检测的效果并不理想。平均精度为80.3%，与检测效果最差的波段组合蓝、红、近红外（1、3、4）相比仅提高了1%。

图4展示了不同网络与不同波段组合在同一区域影像上的检测结果，其中图4（b）为人工标注后的影像，作为检测结果真实值的对照。可以看出YOLOv3 在蓝、红、近红外（1、3、4）波段组合的检测结果中存在漏检，错检等现象，而FPNFaster-RCNN 在近红外、红、绿（4、3、2）波段组合中的检测结果更加优异，正确检测了所有树冠。

图4 检测结果示意图Fig.4 Examples of detection result

4.2 不同网络树冠检测结果分析

不同网络的树冠检测效果也存在差异，图5反映了各个网络在不同数据集中Precision 和Recall的变化趋势。3 个网络中FPN-Faster-R-CNN 的检测效果最佳，在所有波段降维数据集上的平均精度为85.8%，比Faster R-CNN 的平均精度78.8%提升了7%。YOLOv3 的检测能力居于两者之间，平均精度为81.7%。研究区内的银杏树种树龄所在范围较大，不同树龄的银杏其冠幅和树冠面积也不尽相同。且使用无人机多光谱成像系统采集数据过程中，设置了不同飞行高度的飞行任务，在不同高度采集的影像中相同物体的尺寸也存在差异。这两个因素使得5种数据集内不同影像中的银杏树冠尺寸存在不一致的情况。FPN-Faster-R-CNN 和YOLOv3 将输入的图像通过网络操作生成不同尺寸的特征图，并且针对每一个特征图做出预测，最后综合各个特征图的结果做出最后的判断，这种方法提高了网络在检测小尺寸目标物体上的性能（Lin 等，2017），因此FPN-Faster-R-CNN 和YOLOv3 针对不同尺寸的银杏树冠能给出较好的检测结果。本文中的FPN-Faster-R-CNN 采用了two-stage 的主干检测网络，相比于one-stage 的YOLOv3 有更高的AP。而只在单一尺寸特征图上做出推断结果的Faster R-CNN 则不能达到和FPNFaster-R-CNN 相同的精度。

图5 各实验组合测试集Precision-Recall曲线Fig.5 Precision-Recall curves of each experimental methods and combination of bands

4.3 网络检测速度分析

网络的检测速度也是评价网络性能的指标之一，本实验中不同网络在测试集上的平均检测时间如表4所示。从表4中可看出one-stage的YOLOv3网络检测所需时间最短。FPN-Faster-RCNN 的平均检测时间最长，主要原因在于two-stage 的目标检测网络需要先提取出感兴趣区域，再进行下一步处理，并且在多尺寸特征图上进行预测使其处理时间要大于Faster R-CNN。

表4 不同网络检测时间对比Table 4 Comparison of different network detection time

4.4 检测误差分析

检测中出现的误差主要可分为以下几类：（1）误将影像中其他非银杏树冠物体检测为银杏树冠。（2）影像中存在的银杏树冠未检测到；（3）影像中尺寸较大的单株银杏树冠被检测为多株小尺寸的银杏。图6展示了不同的检测错误情况：图6（a）、（b）中检测到了非银杏树冠。图6（c）中将较大尺寸的一个银杏树冠检测为两个小尺寸的银杏树冠。图6（d）中被遮挡的银杏树冠未被检测到。

图6 典型错误检测局部图Fig.6 Typical error examples

影像中树冠的细节可以帮助网络区分不同的树冠。而影像中树冠的细节丰富程度与影像的分辨率成正比，与拍摄时的飞行高度成反比。本文中无人机多光谱影像采集系统得到的影像分辨率为1280 像素×960 像素相比于常见的RGB 相机的分辨率较低。除此之外影像采集时不同的飞行高度也会影响影像中树冠的细节。这两种原因都提升了树冠误检的概率。同时，树冠细节的缺少也使银杏树冠漏检的机会增大，而银杏树冠被遮盖以及树冠尺寸远小于平均尺寸也是漏检的原因之一。

尽管采集数据时设置了不同的飞行高度以提高数据的多样性和增加网络的鲁棒性，但在起降时拍摄的影像，其中树冠的尺寸要远大于飞行时拍摄的影像中树冠的尺寸。且起降时拍摄的影像数量较少，不足数据集总数的1%，网络无法学习到此类影像的特征，网络更倾向于检测出小尺寸的树冠，因此会出现将大尺寸树冠检测为多个小尺寸树冠的情况。

起降时拍摄的影像与在预设高度飞行时拍摄的影像如图7所示。图7（a）、（b）中矩形框内的银杏树冠为同一棵树。图7中（a）为无人机起飞时采集的影像，其中矩形框内的树冠高度和宽度分别为304 像素，290 像素。图7（b）中矩形框内的树冠高度和宽度分别为112 像素，108 像素。图7（a）中的树冠面积为图7（b）中树冠面积的729%。

图7 无人机起飞过程中及预设高度飞行时采集影像对比Figure 7 Comparison of images captured during takeoff and at preset altitudes during UAV flight

5 结论

对多光谱影像降维处理可有效减少数据的冗余提升深度学习网络的运行效率，结合预训练模型即使采用小样本量的数据集也可在树冠检测任务中达到较高的准确率。然而针对多光谱数据的降维算法种类较多，采用何种降维方法有助于单木树冠检测研究却少有研究讨论。

针对这一问题，本文通过波段组合、特征波段选择，特征提取3 种降维方法共生成5 种不同的数据集，在3 种经典的深度学习网络FPN-Faster-R-CNN，YOLOv3，Faster R-CNN 上，进行了实验。由结果可知：由特征波段选择方法得到的近红外、红、绿（4、3、2）波段组合在one-stage，two-stage 目标检测网络中都有最好的检测结果，其中在FPN-Faster-R-CNN 网络中对银杏树冠的检测精度最高为88.4%。而通过OIF 指标得到的蓝、红、近红外（1、3、4）波段组合虽然有最高的信息量，但是在所有网络中的平均检测精度最低，仅为79.3%。由本文实验结果分析可得，在不同波段降维方法中，若降维后的影像中目标物体的色彩与背景差异较明显，且轮廓清晰，则深度学习网络对树冠的检测可获得较好的结果。而影像自身的信息量则对提升深度学习网络的树冠检测能力并无作用。

本文仅研究了多光谱影像降维方法对树冠检测的影响，下一步的任务可考虑使用波段数量更加丰富的高光谱数据进行试验。