无人机智能遥感信息提取技术研究与应用

2023-07-06冯一军梁雄乾王志虎

计算机测量与控制 2023年6期

冯一军，陈霖，梁雄乾，王志虎，王鑫

（1.广西壮族自治区自然资源调查监测院，南宁 530023；2.自然资源部北部湾经济区自然资源监测评价工程技术创新中心，南宁 530219；3.广西职业师范学院计算机与信息工程学院，南宁 530007；4.桂林电子科技大学北海校区，广西北海 541000）

0 引言

摄影测量与遥感影像作为自然资源综合监测监管的重要数据资源，在自然资源现状数据采集、更新中发挥着越来越重要的作用。基于遥感影像进行专题信息提取对深度理解自然资源要素有重要作用，传统遥感影像专题信息提取方法可以分为监督分类和非监督分类方法。经常使用的监督分类方法有最大似然法［1］、支持向量机［2］、人工神经网络、决策树、随机森林和面向对象分类等［3］，非监督分类方法有K-Means、ISODATA 等，但以上方法存在提取要素精度不准，且因地物异物同谱等原因造成地物错分和混分情况严重。不同的特征对于地物要素提取所起到的作用各不相同，所占的权重也是存在较大差异。权重的设置主要依靠人工经验，而权重的设置参数直接影响到信息提取精度［4］。因此，监督分类等方法在高分辨率专题信息提取中存在诸多局限性。虽然非监督分类不需要人工进行特征选择，但是非监督分类没有选用训练样本，无先验信息，主要依据图像中地物的波谱特征进行特征选择和特征分类，因此在专题信息提取上的精度要比监督分类方法低［5］。目前监督和非监督方法大部分用在中低分辨率影像的专题信息提取研究和应用，在高分辨率影像上目前主要以人工为主［6］。

近年来，随着人工智能技术的快速发展，国内外学者和行业专家积极探索利用深度学习进行卫星遥感影像的分割、分类、场景分析、图像检索、目标检测和变化检测研究和应用。1998年，LeCun［7］提出LeNet-5，该网络基于梯度的反向传播算法对网络进行有监督训练，成功开启了卷积神经网络新时代。2012年，Krizhevsky［8］等提出AlexNet并将卷积神经网络运用于图像分类，在ILSVRC-2012比赛中以10%的精度优势夺得冠军，自此神经网络迎来高速发展的热潮，随后国内外学者不断提出新的卷积神经网络方法［9-11］。在遥感影像信息提取中，多种技术探索和应用方向均取得较好进展，包括基于R-CNN，Fast R-CNN 和SPPnet等算法在目标检测方向来识别遥感影像中的典型目标；基于FCN、Deeplab Unet等算法用于遥感影像分割分类；基于UFCN、D-LinkNet算法来进行遥感道路提取等［12-13］。Zhang等人［14］利用一个融合了多层感知器和8层CNN 联合深度学习模型用于LULC分类，对航空影像的LC和LU 的平均总体分类精度达到了90.18%和87.92%。田琳静等人基于无人机影像使用一个5层的CNN 模型用于农业区土地利用分类，分类精度达到了93%［15］。Huang 等人基于WorldView 多光谱遥感影像进行分类，利用一个半迁移的深度CNN 进行城市土地利用分类，比传统方法获得了更好的分类结果，精度高达91.25%［16］。还有许多学者也将CNN 应用到农作物分类上，Zhong等人［17］基于Landsat影像使用一维CNN 模型进行农作物分类，并与传统方法对比取得了最好的分类效果，精度达85.54%。

目前行业内结合深度学习技术的应用多以0.5米到2米分辨率之间的遥感影像开展，并且主要以两期遥感影像变化检测的方法，进行自然资源综合监测监管实际业务应用［18］。利用人工智能技术，结合超高分辨率无人机遥感影像，在精准提取目标地物边界的同时，逐步提取航天遥感影像无法识别的精细化类别；同时结合历年生产的国土调查现状数据，开展精细化自然资源各类地物要素调查，以及耕地、矿产、水体、林地等专项动态监测，将进一步提升自然资源调查监测和综合监测监管将实现自然资源精细化和定量化能力。

本文结合近两年持续开展的无人机超高分辨率智能遥感解译探索经验和能力应用，梳理总结了人工智能与超分辨率遥感影像智能解译体系建设，以及在自然资源调查监测和综合监测监管中的应用。通过介绍超高分辨率智能遥感解译体系建设思路，智能解译模型算法研发与优化和综合监测监管应用实践等方面的研究进展，对人工智能在超高分辨率无人机遥感影像解译应用中的流程和存在问题进行剖析，并提出进一步研究和应用建议与设想，为进一步推动超高分辨率遥感影像的人工智能解译技术的应用发展提供思路。

1 超高分辨率智能遥感解译方法研究思路

1.1 总体思路

与基于两期影像进行变化检测在自然资源综合监测监管中的应用方法不同，本文充分利用0.1米左右分辨率无人机影像的超高辨识能力，以及国土变更调查现状数据的权威性，通过采集获取单期的无人机遥感影像，通过研制多种地物要素分类提取智能解译算法进行最新时相地物要素分类，与基准时相的国土变更调查地类图斑进行专题空间分析，提取特定专题管理范围内部或外部的要素，提升自然资源调查监测中新增建设用地提取、耕地变化检测、水体等专项调查监测，耕地 “非农化”、“非粮化”监测，供地与用地全生命周期监管，执法监督等综合监测监管的精细化和智能化水平。同时单时相影像提取的地物要素可定量化统计专题类别的定量分布和面积等信息，达到专题调查分析的目的。

图1 超高分辨率智能遥感解译监测监管总体思路

图2 智能遥感解译算法研发工艺流程

在国土变更调查遥感监测的新增建设用地提取中，标注对应样本并训练建筑、道路、推堆土、露天体育场等典型建设用地特征地类，通过获取最新时相的超高分辨率无人机遥感影像，并提取以上类别，套合前时相国土变更调查的非建设用地范围，提取非建设用地范围内的疑似新增建设用地图斑，在工期紧凑的国土变更调查应用中，可提前提取以上遥感监测图斑，并提前下发外业调查核实，可有效提升变更调查工作效率。在耕地 “非农化”、“非粮化”监测中，标注对应样本并训练建筑、道路、推堆土、露天体育场等非农典型地类和园地、林地、坑塘／水体等典型非粮地类智能解译模型，通过获取最新时相的超高分辨率无人机遥感影像，并提取以上类别，套合前时相国土变更调查的耕地范围矢量，提取耕地范围内的 “非农化”和 “非粮化”图斑，经过人工判读后，精准、快速提取以上专题矢量数据。

1.2 智能遥感解译算法研发工艺流程

智能遥感解译算法研发的主要过程包括样本的生产与管理，模型训练、精度评价与模型优化，模型应用等关键环节［19］。

在样本生产与管理环节，最大化发挥历史业务数据价值，采用国土变更调查、DLG 历史矢量中道路，水体，耕地等业务地类数据，对业务数据进行样本提纯优化，并制作多分类样本库。在模型训练中调优HRNet网络结构开展模型训练，并开展多参数调优的模型训练实验，采用多种精度评价方法对训练的模型成果进行精度评价。对验证集评价后的模型典型问题进行分析，通过返回优化原始样本质量或新增样本方式进行样本新增和优化。

通过训练优化后的模型在验证集上准确率和召回率均超过85%后，该模型可通过解译提取并人工修测后在自然资源综合监测监管实际项目中应用，人工修测后的数据作为新增样本，加入样本库中做进一步模型训练优化。

2 智能解译模型算法研发与优化

2.1 样本生产与样本库建设

样本分类体系建设，本研究参考国土变更调查技术规程，地理国情监测地物要素分类体系和遥感地表覆盖分类体系，以及广西地类特色，形成广西超高分辨率遥感样本分类标准，样本按照三级分类管理，一级类包括建筑、铁路与道路、耕地、园地、林地、草地、人工堆掘地、构筑物、水体、裸地和其他，其他类别见图3样本分类体系。

图3 样本分类体系

样本采集与生产，本研究中采用广西0.1米无人机影像，在GIS软件套合国土变更调查中的道路，耕地，林地，园地，水体矢量和无人机影像，对因时相不同引起的图斑变化进行人工修测，建筑物的样本基于无人机影像进行人工单栋建筑物边界采集，样本采用两种形式进行存储，原始样本数据按照tif格式影像与shp格式的矢量存储，样本成果以2 048像素＊2 048像素的影像和二值label标签存储。研究过程采集0.1米分辨率的2 048＊2 048像素样本中，建筑5 468 张，道路6 861 张，耕地10 648 张，园地3 498张，林地4 367张，水体3 761张。解译样本成果如图4所示。

图4 超高分辨率智能遥感解译样本成果

2.2 HRNet卷积网络模型训练

2.2.1 卷积神经网络基本结构

为了更好地解决遥感影像在专题信息提取中出现的异物同谱问题，许多学者将卷积神经网络算法应用到遥感影像分割分类和变化检测信息提取中。卷积神经网络遥感影像分类方法主要是基于影像区域级别识别并对像素级进行分类。在这之前，许多神经网络都是全连接的网络，即每个神经元和其它神经元之间连接。然而全连接神经网络的参数量大、学习效率低，并且层数也有所限制，因此不适合处理大尺度图像。而CNN 使用了卷积操作，使其具有局部感受野和权值共享的特点，因此网络的参数量就减少了很多，更适合处理大尺度图像［20］。

在卷积神经网络中，卷积运算代替了全连接神经网络中的向量运算。使用卷积处理能够大大减少每一层权重的参数量，降低了神经网络的复杂性。卷积神经网络的结构一般由卷积层、池化层、激活层和归一化层组成。

1）卷积层：卷积层是CNN 的核心部分，其主要功能是获取输入图像的特征。卷积核是卷积层的核心，具体操作是利用卷积核对输入的特征图进行卷积运算，并输出运算结果。

图5是卷积运算的具体操作，其是用一个3×3大小的卷积核对输入特征图进行单步卷积运算。具体运算操作是在输入特征图中使用一个与卷积核尺寸相同的滑窗，在特征图中按照从左到右、从上到下的顺序滑动，并将每次滑动对应窗口和卷积核各位置的像素值相乘再相加，得到的运算结果代表滑窗中心的像素值。而对于边缘像素，可以在其边界填充0，这样卷积运算就可以输出与原始特征图尺寸相同的特征图［21］。

图5 卷积计算

卷积层能够抽取图像的各种特征，浅层卷积可以学习到简单的边缘特征，深层卷积可以学到更加复杂抽象的特征，这使得CNN 可以自动提取图像中的特征。此外，卷积层有局部连接和权值共享的优点，这大大降低了网络的参数量。

2）池化层：池化层是CNN 中常见的部分之一，池化层通过下采样方式来降低特征图的尺寸，从而可以进一步减少网络的参数量。池化层常用的方式有最大池化和平均池化。最大池化是在特征图中选定一个固定尺寸的窗口，并用这个窗口中像元的最大值来代替此窗口，然后窗口按固定步长在特征图中进行滑动采样，以此来降低特征图的尺寸。而平均池化是用窗口中所有像元的平均值来代替窗口。池化层一般将特征图的尺寸降低一半，这样可以进一步减少模型后续的参数量。

3）全连接层：全连接层在CNN 中用作最后的分类，通常位于整个网络的末层。图像在经过卷积层和池化层后，网络学习到了图像的浅层特征和深层特征。而全连接层则是将学到的特征进行加权求和，从而判断图像所属的类别。全连接层中输入层是特征向量，将输入层的神经元与隐藏层的神经元进行全连接来对特征向量加权，而输出层一般通过Softmax分类器将输出的结果表示成一个分类概率向量，表示图像属于每个类别的概率［22］。

4）激活层：主要是对非线性的函数进行拟合，而卷积操作只是线性的，因此引入激活函数来增加网络拟合非线性函数的能力。常见的激活函数有Sigmoid、Tanh、ReLU 和ELU 等。ReLU 函数就是max（x，0），计算速度很快，且对于大于0的输入值敏感程度一样，因此不会造成梯度消失。卷积神经网络中经常使用的激活函数是ReLU 函数。

5）归一化层：在CNN 中，深层卷积层的输入是来自其之前的卷积层的输出。因此，浅层卷积层的参数变化会导致深层输入的分布发生改变。网络模型训练是利用随机梯度下降来不断更新参数和数据分布，而每次参数更新都会导致网络中间每一层的输入分布发生变化，这种变化也称内部协变量偏移。而随着网络层数的加深，这种偏移量表现得越明显，这会导致模型需要更多时间来调整样本分布，从而降低网络的训练效率。而批归一化层的提出有效地缓解了这个问题，利用BN 层将卷积层的输出数据标准化到有效范围内，这样就可以缓解内部协变量偏移的问题。因此BN 层可以防止梯度消失和梯度爆炸，加快网络训练和收敛的速度，还能防止模型过拟合。

2.2.2 HRNet模型网络

语义分割模型网络结构主要包括串行结构和并行结构［23］，串行网络结构将图像抽象成语义特征图层，解码器再将语义特征图映射返回到图像标签上，该过程会损失大量图像信息，而并行结构的语义分割网络，直接保留原始高分辨率的特征图，能够保留大部分的图像精细化信息。本研究选用HRNet并行连接网络模型，HRNet（high-resolution Network）是由微软亚洲研究院视觉计算组提出的一种高分辨率深度神经网络。HRNet以其独特的结构框架，在姿态识别、语义分割、目标检测等方面有很好的应用。HRNet整个过程保持高分辨率的特征图，得到更为精准的空间信息，不仅能够较好保留超高分辨率遥感影像中，建筑、道路、耕地、林地、园地和水体等类别具有明显的几何特征，以及很强的连贯性和上下文语义特征关联性。HRNet的网络在CV 领域，越来越得到关注，因为很多用HRNet作为骨架网络的方案在语义分割、目标检测、分类、分割、人体姿态估计等领域均取得瞩目的成绩。

HRNet的网络结构如图6所示，网络可视作四个并行的网络，每个网络具有不同分辨率的子网络，在并行的子网络之间存在多次特征图的跨分辨率融合。不断将低分辨率的特征图加到高分辨率特征中。HRNet从高分辨率子网作为第一阶段始，逐步增加高分辨率到低分辨率的子网，形成更多的阶段，并将多分辨率子网并行连接。在整个过程中，通过在并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合，使得每一个高分辨率到低分辨率的表征都从其他并行表示中反复接收信息，从而得到丰富的高分辨率表征。HRNet网络在水平维持高分辨率特征，预测获取的特征图在空间上能更精确，使用重复的多尺度融合，利用相同深度和相似级别的低分辨率表示来提高分辨率表示。

图6 HRNet模型结构图

2.2.3 模型训练

研究在OpenMMLab 开源深度学习算法体系下进行，基于ubuntu16.04操作系统，8卡NVIDIA GeForce RTX 2080Ti的GPU 算力进行模型训练，在建筑物模型训练中基于5 468张2 048像素＊2 048像素的建筑样本，设置训练的迭代次数（total＿iters）为1 000次，共8卡并行训练，每卡并行样本数量为2，初始学习率为0.001，为了增加小面积的建筑物召回率，设置小于200像素的权重为3。在训练样本中自动划分10%的样本作为验证集，训练过程统计的指标如图7所示。另外，分别完成道路，水体，耕地，林地和园地的分割模型训练工作。

图7 模型训练过程指标

2.3 研究成果分析与精度评价

2.3.1 解译处理与结果分析

利用已经训练的HRNet模型对超高分辨率遥感影像进行分割信息提取时需要包括概率图预测与二值化，矢量化及后处理两部分工作。在概率图预测与二值化过程中将已经拼接好的DOM 成果按照5 000＊5 000像素分辨送入网络进行预测，预测结果转化为0～1之间的浮点图，预测值越大说明为某个地物前景的置信度越大，通过对预测的浮点概率图设置概率阈值得到二值图，二值图中前景为1，背景为0，本研究将概率阈值设置为0.5。

在将二值图进行矢量化的后处理过程，针对建筑物进行直角化处理，对其他地物要素通过设置先腐蚀再膨胀的参数消除掉细条状图斑。通过Douglas-Peucker算法进行边界简化处理，从而消除掉由栅格转矢量过程的像素锯齿华现象，保证矢量形状更贴近人工采集风格。通过设置小于特定像素数量的图斑剔除，去掉过小图斑输出。图8为输入无人机遥感影像，自动提取的建筑，道路，水体，耕地，林地和园地矢量成果。

图8 基于HRNnet模型解译结果

2.3.2 结果精度评价

本研究精度评价采用像素级的准确率（Precision），召回率（Recall）和F1＿Score三个精度指标进行评价。

准确率（Precision）为模型预测值落在真值中的面积在所有预测值中的面积占比。该值越低说明模型针对该地物的错检越多。

召回率（Recall）为模型预测值落在真值中的面积在真值中的面积占比，该值越低说明模型针对该地物的漏检越多。

F1＿Score代表模型在准确率（Precision）和召回率（Recall）的综合平均分数。精度评价计算说明如表1所示。

表1 精度评价计算值说明

在广西北流市、武鸣区、梧州市及河池市等地针对每类地物各选择标注400张2 048＊2 048像素的影像进行验证集标注，作为对各类模型精度评价的基准真值。针对已经训练得到的建筑、道路、水体、耕地、林地和园地6类地物的精度评价指标如表2所示。

表2 各地类精度评价指标

2.3.3 结果分析及对策

建筑预测模型可以对0.1米左右分辨率的无人机影像自动提取直角化的建筑物矢量轮廓，对20个像素以内的超小建筑存在部分漏提，容易将大棚错检为建筑，需要进一步标注增加超小建筑数量，训练时增加小建筑物的权重，同时有针对性增加大棚样本作为负样本进行迁移训练。道路预测模型提取矢量准确贴合影像道路边界，对建筑和树木遮挡的道路需要后续开展后处理方法研究，完成道路连接性修补。

水体预测模型的准确率超过92%，能够准确提取水面区域图斑，但容易对超大水面的边缘部分出现漏检，对部分水域的边缘贴合度欠佳，耕地预测模型存在少量图斑边缘贴合度欠佳，将部分园地错检为耕地的情况，林地和园地容易相互错检。以上错检和漏检情况后续需要优化现有样本质量，并增加样本持续提升模型预测精度。将利用预测模型对初始样本进行预测，基于标注结果优化原有样本质量，同时标注各类预测容易漏检和错检的图斑，对容易漏检和错检的图斑在label中单独赋予亮度值，并在后续模型训练中增加相应正负样本权重，同时在广西选择更多典型区域增加样本标注。

3 应用研究案例

在耕地“非农化”、“非粮化”监测项目中，以2022年国土变更调查的耕地矢量图斑作为耕地基础图斑，对武鸣区、良庆区、宾阳县耕地范围内提取建筑，道路，水体，林地和园地，重点对耕地内的1 379个水体坑塘图斑下发外业核查，开展耕地内养殖坑塘整治工作，相比人工提取标注水体图斑，可有效提升作业效率。

在建设项目实施监管项目中，套合建设项目审批图斑，采用训练的HRNet预测模型对0.1米无人机影像，自动提取平果县、乐业县、凌云县、隆林县、宾阳县、上林县、西乡塘区等1 879平方公里的1 992个疑似新增建筑图斑并开展外业核查工作，相比原有全人工判读，提升约3倍的工作效率。目前在持续探索在执法监督和1：500DLG 更新中的道路和水系更细工作中。

在耕地流入项目应用中，采用耕地提取模型，共解译无人机遥感影像14 600平方公里，自动提取疑似新增耕地流入图斑30 000个，涉及面积近10 万亩。经实地举证检验，基于该模型人工智能能提取的正确率达95%。相关成果已运用在日常变更调查、自然资源综合监测成果中。

4 结束语

针对广西地貌破碎，以及天气多云多雨情况造成的卫星遥感采集覆盖不及时的情况，充分利用超高分辨率无人机遥感影像，引入HRNet网络算法，通过标注训练样本，开展无人机智能遥感解译模型研发，训练0.1米最佳分辨率的建筑，道路，水体，耕地，林地和园地智能预测模型，通过单独精修标注的验证集进行精度评价，以上地类要素的准确率和召回率均超过85%。建筑预测模型存在超小建筑漏检和大棚错检问题，耕地，林地和园地存在混检的问题，后续需要通过对原始样本进行优化、标注针对性正、负样本和增加样本的方式通过反复调参和模型训练增加预测模型的泛化性。同时需要持续研究道路连通性，建筑规则化和通用图斑优化等后处理算法，提升模型预测图斑的可用性。