基于MaskR-CNN网络的农田地块识别

2020-07-31史宝坤李欣魏春燕安子湉杜兵戈

现代信息科技 2020年4期

史宝坤李欣魏春燕安子湉杜兵戈

摘要：人工智能是計算机领域研究的热门方向，而深度学习作为其中的一个核心领域更是吸引了众多学者投入研究。同时我国作为一个传统的农业大国，土地是一种极其重要的资源。因此如何运用深度学习技术让土地资源的使用更加合理有效极其重要。基于此，文章对卷积神经网络的发展和Mask R-CNN算法的基本原理进行了研究，并使用Mask R-CNN算法对农田的高分辨率遥感图像进行识别，将农田中的每一个地块识别出来，以实现对农田地块的合理利用。

关键词：计算机视觉;卷积神经网络;人工智能

中图分类号：TP391.4;TP183 文献标识码：A 文章编号：2096-4706（2020）04-0025-03

Abstract：Artificial intelligence is a hot research direction in the field of computer，and deep learning as one of the core areas attracts many scholars to study. At the same time，as a traditional agricultural country，land is an extremely important resource. Therefore，how to use deep learning technology to make the use of land resources more reasonable and effective is extremely important. Based on this，this paper studies the development of convolution neural network and the basic principle of Mask R-CNN algorithm，and uses Mask R-CNN algorithm to recognize the high-resolution remote sensing image of farmland，and recognizes every plot in farmland，so as to realize the reasonable use of farmland plot.

Keywords：computer vision;convolutional neural network;artificial intelligence

0 引言

卷积神经网络是深度学习中的重要网络结构。在卷积神经网络发展的早期，由于缺乏大量数据的支持，导致了卷积神经网络的发展受到了限制，很难产生理想的结果。而随着计算机水平的发展以及COCO数据集等大规模数据集的出现打破了这种限制，有关卷积神经网络的研究也大规模地进行。而近十几年，我国的农业信息化、智慧化水平不断提高。笔者作为农业院校的计算机专业以及应用数学专业的本科在读学生，运用互联网技术尤其是深度学习技术解决农业中出现的问题已经成为主要的研究学习方向。众所周知，传统的神经网络虽然可以提取高分辨率遥感卫星图片的特征，但适用性和识别结果都不理想。随着神经网络的进一步发展，卷积神经网络可以提取到更深的特征，其中Mask R-CNN作为一种简单易于理解且精度高的网络已经成为主流的实例分割网络，适用于遥感图片的识别，有着很好的适用性和通用性。

1 Mask R-CNN算法的简要介绍

Mask R-CNN作为一种精确的卷积神经网络，其在Fast-RCNN上加入一个Mask分支，并创造性地提出了RoIAlign，替换Fast R-CNN网络中的RolPooling。我们可以将其分为三个部分，第一部分对特征进行提取，第二部分进行候选框的处理，第三部分输出结果。三种可供选择的结果是覆盖目标的Mask，候选框的位置和候选框内物体的分类。如图1是Mask R-CNN的网络结构。

1.1 ResNet

进行神经网络的训练时，大量的实验告诉我们并不是网络的深度越深结构越复杂所得到的结果越好。在网络结构不断加深的过程中，梯度下降和梯度爆炸问题难以避免，反而会致使学习的效果下降，为了解决这个问题，2015年由何凯明等人提出了深度残差网络（Deep Residual Network，ResNet）[1]。ResNet网络结构中常见的是两层及三层的残差学习模块，两层的残差网络中将两个3×3的卷积网络串联在一起，三层的残差网络中将1×1、3×3、1×1的3个卷积网络串联在一起。该网络的创新点是加入了一个直连的通道，进行增量学习，该次的结果为上一次结果与最新学习的部分之和，从而简化了学习目标，提高了网络的学习能力。

1.2 FPN

FPN作为该网络中重要的一部分，是一个特征金字塔结构。通过该结构可以弥补Fast R-CNN物体检测算法在处理多尺度变化问题的不足。我们可以将该结构主要分为三部分，一部分自底向上进行，每向上进行一次，分辨率的大小减少为上一次的四分之一，通道数增加为原来的二倍。另一部分自上向下，使用双线性插值的方法进行上采样，将分辨率扩大为上一层的四倍，通道数不变。另外该结构中还有一个侧向链接，该链接主要用1×1的卷积使自底向上每一阶段的图片的通道数与自上向下产生图片的通道数相同，以进行融合。然后经过3×3的卷积减少上采样的重叠效果，最后输出Feature Maps，其结构如图2所示。

1.3 RPN

Mask R-CNN算法的RPN层，主要进行三部分的工作：在第一部分工作中RPN网络依靠一个在共享特征图片上滑动的窗口，在每一个点生成不同比例不同大小的边框，并对边框进行修正，去掉超过边界的过大的或者过小的边框，这些边框可以将整个Feature Maps进行覆盖;第二部分计算边框的得分，并选取一定数量的目标得分高的边框;在第三部分，计算损失函数Loss。要选取合适的锚点计算损失函数。在这一过程中要先给锚点打标签。如果一个锚点与Ground Truth的IoU在0.3以下，那么这个锚点就算是背景，我们将其锚点的标签置为0。另外，1为含有目标的锚点标签，-1为不采纳的锚点标签。然后随机选取一定比例一定数量的锚点，以这些锚点为基础计算损失函数。

1.4 RoIAlign

Mask R-CNN算法中对RoIPooling进行了改进。在RoI-Pooling中直接通过四舍五入取整得到的结果与原图的输出存在误差，导致识别结果不准确。而在Mask R-CNN算法中不再使用量化操作，剔除了RoIPooling的取整操作，取而代之的是双线性插值技术，将特征聚集过程转换为一个连续过程，形成了新的技术RoIAlign。最后将处理到同一尺度的结果，传入后面的网络。该方法有效地减少了量化操作中所带来的误差，使得结果更加的准确。

1.5 输出结果

最后使用一个简单的全连接网络前加一个Head，将RoIAlign的输出纬度扩大，更加精准地获得Mask分支;进行边框回归得到Coordinates;使用Softmax分类算法得到Category。在该分类算法中，识别的结果接近哪个类别，那么哪一类的值就接近1。

2 基于PyTorch的Mask R-CNN识别地块

2.1 训练数据的准备

在进行正式的训练之前我们需要准备好数据集。本文选取了510张遥感卫星图片，并使用标注工具LabelMe對每一张图片的地块进行精准标注。但由于人工标注容易出错，会使训练结果产生误差。标注完成后每一张图片都会生成一个JSON文件，但是该类型的JSON文件并不能够进行直接使用，我们还需要进行JSON文件的格式转换，将其转换为COCO数据集格式的JSON文件，到此我们就完成了数据的准备工作。随后我们将准备好的图片和其所对应的JSON文件分为两组，一组为410张，进行训练，另一组为100张，进行验证。我们使用一块4G的GeForce GTX 1080 Ti显卡，迭代40 000次，总共训练时长约12 h。

2.2 训练效果的评价

3 结论

各式各样的卷积神经网络推动着深度学习不断向前发展。作为卷积神经网络中的一个主流实例分割算法，Mask R-CNN在目标检测、人体姿态识别方面都有着很好的效果，灵活且易于掌握。本文中用Mask R-CNN进行网络训练和识别地块的效果较好，但在地块边缘仍存在识别不精准的情况。对此，可以扩大训练集的数量以及提高人工标注的准确度来取得更好的识别效果。

参考文献：

[1] 陈建廷，向阳.深度神经网络训练中梯度不稳定现象研究综述 [J].软件学报，2018，29（7）：2071-2091.

[2] HE K M，ZHANG X Y，REN S Q，et al. Deep residual learning for image recognition [C]//IEEE Conference on Computer Vision and Pattern Recognition，2016：770-778.

作者简介：史宝坤（1998-），男，汉族，河北承德人，本科在读，研究方向：计算机科学;李欣（1999-），男，汉族，河北保定人，本科在读，研究方向：软件工程;魏春燕（1999-），女，汉族，河北石家庄人，本科在读，研究方向：电子信息科学与技术;安子湉（2000-），女，汉族，河北保定人，本科在读，研究方向：电子信息科学与技术;杜兵戈（2001-），女，汉族，河北石家庄人，本科在读，研究方向：数学与应用数学。