深度学习目标检测方法研究综述

2021-07-20李一男

中国新通信 2021年9期

李一男

【摘要】为了更准确的对图像中的目标物体进行识别，科学家研发了目标检测技术，其是计算机视觉的重要组成。最近几年深度学习越来越普及，基于深度学习的目标检测技术具有更高的准确率和检测效率，可以应用在很多领域，然而应用过程中还存在一些影响深度学习目标检测的发展的问题急需解决，基于此，本文对目标检测概念进行了简单介绍，并对深度学习目标检测算法进行了归纳总结，对深度学习目标检测中存在的问题和未来发展进行了探究，希望可以为目标检测实现更好发展提供助力。

【关键词】深度学习目标检测研究

Abstract： In order to more accurately identify target objects in images， scientists have developed target detection technology， which is an important component of computer vision. In recent years， deep learning has become more and more popular. The target detection technology based on deep learning has higher accuracy and detection efficiency， and can be applied in many fields. However， there are still some problems that affect the development of deep learning target detection in the application process. Based on this， this article briefly introduces the concept of target detection， summarizes the deep learning target detection algorithm， and explores the problems and future development of deep learning target detection， hoping to achieve better target detection Good development provides assistance.

Keywords： deep learning; target detection; research

引言：

深度學习最近几年得到了很大的发展，计算机视觉技术也得到了很大的提升，基于深度学习的目标检测方法在很多领域都实现了广泛应用。其目的就是在图像中快速、准确的找到目标物体，并判断出物体位置和大小，这也是计算视觉领域的重要内容。

一、什么是目标检测

目标检测的最终目的就是对图像中的目标物体位置和大小进行判定，但是不同物体有着不同的特征，再加上一些外界因素的影响，所以目标检测具有很大的难度，这也是机器视觉领域比较头疼的一个问题。

我们拿到一张图片后需要将其分为三个步骤进行理解：

第一步：分类，用事前确定好的类别或实例ID对化为信息的图像结构进行描述。

第二步：检测，上一步是对整张图片内容的描述，这一步则需要选定一个物体目标进行检测，获取物体所处位置以及类别信息。

第三步：分割，这一步需要对语义和实例进行分割，并得出像素属于哪个目标物体或哪个场景的结论。

二、基于深度学习的目标检测算法

深度学习目标检测算法大体上可以分为双阶段和单阶段两种，前者需要将整体分为两部分，然后生成识别框分别对两部分进行识别，后者是将整个流程放在一起直接进行检测。单阶段目标检测算法中比较具有代表性是算法主要有SSD和YOLO，下面就来具体介绍一下两种目标检测算法：

2.1双阶段目标检测算法

该算法需要先借助SelectiveSearch选出图像中的候选区域，之后还需要对候选区域进行再次检测，从而得出最后检测结果，比较常用的算法主要有OverFeat、R-CNN、MaskR-CNN等。

2.1.1 OverFeat算法

该算法是在AlexNet算法基础上进行改进而得到的。OverFeat算法通过和AlexNet进行结合可以更全面的对图像特征进行提取，还可以对提取内容进行共享，该算法现在已经在图像分类中实现了应用，在位置定位中的应用也取得了不错的成效。

和传统检测方法相比，该算法有着更高的准确率，对于开发其他深度学习目标检测算法也具有启迪作用，但是，该算法对于小目标物体检测的准确性却比较低，甚至会出现误差。

2.1.2 R-CNN算法

该算法出现于2014年，是将AlexNet和SelectiveSearch结合后产生的一种比较典型的双阶段目标检测算法，该算法主要包括三个模块，一、区域建议，就是从每张图像中选出可能包含目标物体信息的候选区域，并将这些区域放入区域候选框内;二、深度特征提取，先将候选区域缩放为统一大小，然后从中进行特征提取;三、分类回归，利用AlexNet提取候选区域特征，然后借助SVM对特征进行分类，在利用BoundingBoxRegression对区域进行过滤，利用非极大值抑制对区域进行调整，最后就可以确定目标物体的位置。该算法在和其他目标检测算法相比具有更好的性能，但其也存在一些缺陷。

2.2单阶段目标检测算法

该算法依据的是回归分析思想，所以也被称作回归分析目标检测算法。该算法之所以被称作单阶段目标检测算法是因为该算法不需要生成候选区域，而是直接对整个图像进行检测，从而获得目标位置类别和位置信息，比较常用的检测算法主要有YOLO和SSD。

2.2.1 YOLO目标检测算法

由于双阶段目标检测算法的检测效率比较低，所以一些学者提出了单阶段目标检测。JosephRedmon等人在2016年的时候提出了由卷积层和FC层构成的YOLO目标检测算法，先要在最顶层特征图中标出边界框，之后就可以对每个类别概率进行预测，最后再激活函数就可以得到最终信息。该算法并不是针对整幅图像进行检测，而是将整幅图像分为了多个网格单元，对每个网格中心目标进行检测即可，该算法不用生成候选区域，在一个卷积网络中就可以完成特征提取、分类回归等任务，检测过程得到了简化，检测速度也变得更快，但该算法对于小尺度目标的检测不够准确，如果图像中存在重叠遮挡等现象就可能出现遗漏。

2.2.2 SSD目标检测算法

R-CNN在检测准确性方面具有优势，但是检测速度比较差，YOLO的检测效率比较高，对于大维度变化目标的检测也具有优势，但在小目标检测方面具有劣势。对这两种算法的優势进行结合，最终产生了一种检测准确性和速度都比较好的目标检测算法——SSD。该算法主要借助骨干网络对目标物体特征进行提取，而且增加了四个卷积层。该算法依据的是分层提取思想，也就是将网络分为若干层级，然后对每个层级的图像特征进行提取，对特征进行分类和边界框回归，这样就可以提高检测准确度。而且该算法还应用了目标预测机制，可以对不同层次的目标种类和位置信息进行预测。目标预测机制具有很多优势：第一、借助卷积层就可以推测出目标物体信息，这样计算量就可以变少。第二、目标检测突破了空间限制，这样就可以对多个小目标物体进行同时检测。

和YOLO相比，该算法的检测效率有了进一步提升，检测范围甚至可以达到R-CNN的三倍。当然该算法也存在一些缺陷，如，不能准确的对小目标进行分类，还可能出现重复检测等。

三、深度学习目标检测待解决问题与未来研究方向

3.1先验知识缺失情况下目标识别缺乏准确性

目标检测需要借助计算机对目标物体进行准确识别，对目标信息进行准确提取，所以，先验知识是否完整、是否存在质量问题能够对检测准确性造成严重影响。针对这种情况，现在往往会采用人工预料标注的方法进行解决，但是这种方法不仅要花费很高的人工成本，而且也不能对所有场景使用，另外，目标处于不同环境和场景下，标注数据也需要进行变化，否则就会影响到检测精确性。为此，近几年有学者研发出了弱监督或无监督学习方法，为的就是对目标识别、检测准确性进行提高，但还需要继续研究在先验知识不完整情况下进行目标准确识别的方法。

3.2骨干网络性能有待提升

骨干网络性能的高低能够对目标检测算法效用造成很大的影响，所以需要对骨干网络性能进行积极提升，这和之后的目标检测有着密切关系。现在很多人选择骨干网络时都没有目标，比较随意，这样就会影响到骨干网络性能。要知道骨干网络在不同任务中会发挥出不同的性能，所以进行目标检测时需要遵守以下两点原则：

第一、根据任务的不同选择特定的骨干网络。现在的骨干网络性能虽然已经有了很大提升，但是因为目标分类和检测过程中会出现偏差，所以骨干网络性能也会受到影响，现在急需研究针对目标检测性能更好的骨干网络。

第二、选择处理效率比较高的骨干网络。现在的骨干网络参数已经能够高达数百万数亿，这对于硬件资源而言无疑非常具有挑战，所以要选择处理效率比较高的骨干网络，未来还需要研究处理效率更高的骨干网络以便可以满足目标检测需要。

3.3图像语义信息不够丰富

进行目标检测时丰富的图像语义信息可以有效提高检测准确性和效果。然而现在的难题是在网络结构图像中如何发掘出更多的语义信息，解决这个问题的方法现在有两种：

第一、通过高清表示，也就是对深度神经网络进行深层次特征提取，这样图像尺寸就会变得比较小，分辨率也会有所下降，这时就可以借助沙漏型网络结构来获取高清表示信息图像，或是利用反卷积、分辨率并行等方法来对目标分辨率进行提高，这样目标检测准确性也能得到增强。

第二、通过图像语义理解，图像语义理解和图像信息提取之间有着密切关系，通过图像语义理解可以更快速、准确的提取图像信息，对于像素级对象实例分割问题的解决也能起到很大的助力，像素级对象实例分割越是精确获得的图像实例特征也越是准确，这样就可以更深刻的了解图像语义。

四、结束语

综上所述，深度学习目标检测可以在很多领域进行应用，如，行人检测、车辆检测、面部检测、遥感图像目标检测等，而且在这种领域的应用都取得了不错的成效。经过几年发展，深度学习目标检测虽然有了一定发展，但其中还存在一些难以解决的问题，对于这些问题，需要各学者继续进行研究，从而推动深度学习目标检测走向更高的层次。

参考文献

[1]员娇娇，胡永利，孙艳丰，尹宝才.基于深度学习的小目标检测方法综述[J].北京工业大学学报，2021，47（03）：293-302.

[2]冉蓉，徐兴华，邱少华，崔小鹏，欧阳斌.基于深度卷积神经网络的裂纹检测方法综述[J/OL].计算机工程与应用：1-16[2021-04-09]

[3]袁慧敏，张绪红.目标检测算法综述[J].科技经济导刊，2021，29（06）：52-55.