基于深度学习的监控建筑变化影像识别

2022-08-25黄建华蒙钰天孙希延

地理信息世界 2022年4期

关键词：子块变化检测摄像头

王雪，黄建华，蒙钰天，孙希延

1. 桂林电子科技大学广西精密导航技术与应用重点实验室，广西桂林 541004；

2. 桂林电子科技大学卫星导航与位置服务国家与地方联合工程研究中心，广西桂林 541004；

3. 桂林市国土资源研究中心，广西桂林 541004

0 引言

自然资源执法监督监管工作的一项重要任务是及时发现在城乡建设过程中，不经审批改建、扩建或者违规占用农田等违规建房现象。传统监控“两违”建房，主要是利用卫星遥感数据变化检测技术，结合人工举报、人工实地调查等方法对建筑物进行调查和筛选，需要大量的人力、物力和财力[1]。但卫星遥感变化检测通常利用的是正射影像数据，不容易发现高度上的变化，同时卫星回返周期长，导致发现违法建筑物变化周期长，拆除经济损失大。与卫星遥感变化检测相比较，城市周边建设的长焦距摄像头可以从建筑物侧面更清晰地观测到建筑物高度的变化。长焦距监控摄像头监控距离可达5 km 以上，通常用于海域监控、森林防火、自然保护区保护等领域。在城乡结合部部署或利用已有的带云台控制的长焦距摄像头，结合人工智能图像分析技术，可实现实时、较大范围的违规建房的早期发现，是一种成本较低、发现变化快的自然资源监测管理技术。

目前，建筑物变化检测方法可分为两类：非深度学习变化检测方法和深度学习变化检测方法[2]。深度学习方法先利用语义分割网络模型精确检测图像中的建筑物，再将检测结果进行像元差值从而得到建筑物变化检测区域。王明常等[3]提出用FPN Res-Unet 语义分割网络对建筑物进行变化检测。王民水等[4]提出用DeepLabv3+语义分割网络对建筑物进行变化检测。余晓娜等[5]基于Segnet 网络对街区影像进行变化检测。但是城市景观下建筑物密集，遮挡严重，不能精确检测出各个建筑物。非深度学习变化检测方法一般先提取变化区域，然后利用建筑物的阴影特性提取变化图像中的建筑物。卢丽琛等[6]提出将BMI 和CVA 算法结合的方法对建筑物进行变化检测。王慧贤[7]提出顾及多特征的建筑物变化检测方法。刘升龙等[8]提出用影像差值法和主成分分析法融合对变化区域进行提取。利用长焦距摄像头开展建筑物变化检测，通常是采集相同地理位置不同时相的两幅影像进行利用上述算法进行分析，但由于变化受到光照、摄像头抖动等环境影响，导致摄像头不同时相的两幅影像不能精确配准，难以实现建筑物的变化检测。

为解决上述问题，提出一种基于深度学习的监控建筑变化影像的识别算法。本文从亮度、对比度和结构性3 个方面对摄像头采集的每个图像子块的结构相似度进行计算，结合像元之间的纹理联系，采用自适应阈值方法对变化进行筛选，弱化城市景观下建筑物密集、遮挡严重的影响，得到粗略变化区域影像。然后再利用Faster R-CNN 目标检测网络对上述的粗略变化区域影像进行建筑物的识别与提取，从而分析提取出长焦距监控摄像头下的建筑物变化情况。

1 研究区概况

本文的数据分为训练数据和测试数据。测试数据所用的监控建筑物影像，由架设在桂林西站的长焦摄像头获得，能够清晰观测到桂林西站半径5 km 范围内的建筑物及周围自然资源变化情况。训练数据以桂林市监控建筑影像为主，公开建筑数据为辅，共1200 张监控建筑物影像，每幅影像大小为1000×1500 像素，用于目标检测网络的训练。图1 显示了3 组6 幅长焦监控下建筑物有变化的实验数据，用于测试变化检测的有效性。实验数据以在建区域为主，有以下特点：相同地理位置不同时相的两幅影像光照条件有差别；背景环境存在像素点抖动现象，如风吹动树叶导致树木背景的变化。

图1 研究区建筑物前时相与后时相数据样例Fig.1 Examples of pre-and post-temporal image in study area

2 研究方法

2.1 数据预处理

图2 显示了变化区域的提取流程。首先将输入的两幅前、后时相影像分别裁为N×N 个图像子块，然后将对应位置的图像子块采用高斯加权方法计算每一窗口的均值、方差以及协方差，从而计算对应图像子块的结构相似度[9]。结构相似度SSIM 可表示为：

图2 变化区域影像提取Fig.2 Image extraction of changing regions

上3 式中，∂ ，β，γ＞0；l(x，y)为亮度比较；c(x，y)为对比度比较；s（x，y）为结构比较；μx、μy分别为x、y的平均值；σx、σy分别为x、y的标准差；σxy为x、y的协方差；c 为常数，避免分母为0。

由于每幅影像中变化区域尺寸不同，从而导致每幅影像的图像子块的结构相似度大小不同。为了提高模型的泛化能力，利用自适应阈值方法对变化的图像子块进行筛选，提取变化区域，将所有图像子块结构相似度的均值作为阈值。同时为了避免环境因素对变化区域提取的影响，将每行图像所保留的图像子块个数进行统计，若图像子块个数大于等于N/2，则保留整行的图像子块，否则舍去整行影像。

2.2 模型原理

2.2.1 Faster R-CNN模型

与RCNN 和Fast RCNN 算法相比，Faster R-CNN[10]算法创造性地使用RPN(特征提取网络)代替原来的Selective Search 方法产生建议窗口，通过共享特征层大大减少了计算量[11]，从而提高了算法的检测速度。Faster R-CNN 算法原理图如图3 所示。

图3 Faster R-CNN 算法原理图Fig.3 Algorithm structure of Faster R-CNN

Faster R-CNN 算法对输入进来的粗略变化区域影像在保持原有纵横比的前提下重新调整为固定尺寸大小，然后通过主干网络进行特征提取得到特征图，将特征层输入到卷积层，再分别对每个先验框进行分类和计算对应先验框的偏移量，然后计算出proposals，Roi Pooling 层利用proposals 从特征层中提取的proposal feature 送入后续全连接层和Softmax 网络进行分类[12]，从而得到粗略变化区域影像的建筑物部分，实现建筑物的变化检测。

2.2.2 主干特征提取网络

模型训练是在Telsa P100 GPU，以及CUDA、Python、Tensorflow 等环境下进行的。Faster R-CNN 主干特征提取网络[13]采用残差网络Resnet50，每个残差网络包括两条路径，一条路径是输入特征的直通路径，另一条路径是对该路径进行卷积操作得到的该路径的残差，最后将两条路径上的特征相加[14]。如图4 所示，假设输入的特征为x，经卷积操作得到的残差为F(x)，最终学习到的特征为H(x)=F(x)+x[15]。

图4 残差网络架构Fig.4 Residual network architecture

2.3 模型训练

模型训练等流程如图5 所示。数据预处理后得到粗略变化区域影像，同时对Faster R-CNN 进行参数设置及模型训练，然后调用最优模型对粗略变化区域影像进行目标地物信息的提取。

图5 Faster R-CNN 模型应用流程图Fig.5 Application flow chart of Faster R-CNN model

本文将epoch 训练周期设置为200，训练样本个数设置为960，测试样本个数设置为240，RPN 批处理数量设置为128 进行模型训练。通过对训练得到的模型进行测试，得到目标地物信息。研究结果表明通过训练，模型训练中损失函数输出结果随着epoch 的增加，损失函数越来越小，表明了整个模型的收敛状态。PR 曲线反映了对正例的识别准确度，PR 曲线越靠近右上方时，PR 曲线所包围的面积越大，表明模型性能越好。其中，Precision 指的是查准率，Recall 指的是召回率，将Precision 作为PR 曲线的纵坐标，当Precision=1.0 时表示查准率为100%，Recall 作为PR1 曲线的横坐标，当Recall=1.0 时代表召回率为100%（图6）。

图6 训练周期至200 次时的PR 曲线Fig.6 PR curve when training cycle reaches 200 times

3 结果与分析

本文对桂林市西站的建筑物进行建筑物变化检测。为了定量进行精度评价，以正确率、虚检率、漏检率、完整率和检测质量来衡量检测结果，具体计算方法如下：

式中，Ctd为检测出的真实变化建筑物像元总数；Ct为研究区域中真实变化建筑物的像元总数；Ptd为变化检测正确率，表示建筑物变化检测结果的可靠程度，越大表明建筑物变化结果越可靠；Cfd为实际没有发生变化却被检测为变化的虚检建筑物的像元数量；Cd为实验检测出的变化建筑物的像元总数；Pfd为虚检率，表示非建筑物变化像元被检测到的概率，越小表明建筑物变化结果错误越低；Cod为漏检的真实变化建筑物像元数量；Pod为漏检率，表示建筑物变化像元被漏检的概率，概率越低建筑物变化结果越准确；Pcd为完整率，表示变化建筑物像元被实际检出的概率，完整率越大表明检测效果越好；Q为检测质量，表示实际检测出的像元占真实变化像元的比率，是建筑物变化检测精度的总体度量，检测质量越大，变化检测的效果越好。

3.1 分割尺度的影响分析

影像的分割尺度对建筑物变化检测结果具有重要影响。以桂林西站采集的变化区域数据为例，为了得到最佳的分割阈值，将分割尺度N 分别设为1 到20 的整数，分别计算正确率、完整率、检测质量、虚检率、漏检率。图7为不同分割尺度下对应的正确率、完整率、检测质量、虚检率、漏检率的折线图及其平均值。从图中综合5 个指标进行分析，可以得出当分割尺度N 为2、4、5、7、16 时，各个指标均大于平均值，建筑物变化检测结果较为理想。表1 为分割尺度N 为2、4、5、7、16 时的具体评价数值，当分割尺度为7，建筑物变化检测精度最佳。图8 为分割尺度为7 时建筑物变化检测得到的检测结果，图中红框标定部分“build 1.00”表示检测到的变化区域为建筑物的概率为1.00(100%)。

图7 不同分割尺度的指标Fig.7 Indicators of different segmentation scales

表1 不同分割尺度检测精度比较Tab.1 Comparison of detection accuracies of different segmentation scales

图8 分割尺度为7 的检测结果Fig.8 Building change detection when the segmentation scale is 7

3.2 不同方法结构比较

由于长焦监控易受到风等环境的影响，使得摄像头抖动，导致相同地理位置不同时相的两幅影像对应像元不能精确配准，利用差值法[16]提取变化区域时，对建筑物变化检测结果产生严重干扰。利用图像的亮度、对比度和结构相似度分析影像的变化区域，对配准精度要求不高，以桂林西站的影像为例，图9a 为本文方法可视化结果，其中变化部分为建筑的概率为1.0，图9b 为差值法可视化结果，变化部分为建筑的概率为0.99。不同方法的检测精度见表2，从中可以看出本文方法的各项精度指标都优于差值法。

图9 不同方法检测结果Fig.9 Detection results of different methods

表2 不同方法检测精度比较Tab.2 Comparison of detection accuracy of different methods

4 结论

本文结合图像结构相似性和深度学习算法对长焦距摄像头相同地理位置不同时相的两幅影像进行分析比较，弱化了光照强度变化、摄像头抖动等复杂环境对像素灰度值的影响，实现了两幅前、后时相监控影像的变化区域提取以及建筑物变化检测。实验表明，本文方法比差值法提取得到的变化区域图像质量更高，轮廓效果更好，且受环境因素影响较小，实现了对建筑物的变化检测，为自然资源违法监督提供了新方法。