基于YOLOv3的改进目标检测算法

2021-11-07田新春

电脑知识与技术 2021年25期

田新春

摘要：目标检测作为计算机视觉领域的一个重要问题之一，近年来随着深度学习的不断发展，基于深度学习的目标检测算法越来越受到广泛的关注。在近年来较新的目标检测算法中，选用YOLOv3（You Only Look Once v3）算法，并在其基础上为进一步提高检测精度，再增加一个特征尺度，与其他特征尺度进行特征融合，并使用k-means聚类重新确定锚框，同时增加一定的网络层数。实验在PASCAL VOC数据集完成，实验结果表明，改进的YOLOv3算法检测精度和召回率达到了75.3%和98.1%，较原算法分别提高了2.3%和0.7%。

关键词： YOLOv3; 目标检测; 特征融合; k-means; PASCAL VOC

中图分类号：TP181 文献标识码：A

文章编号：1009-3044（2021）25-0028-03

Abstract：Object detection is one of the important problems in the field of computer vision. In recent years， with the continuous development of deep learning， target detection algorithms based on deep learning have attracted more and more attention. Among the newer target detection algorithms in recent years， YOLOV3 （You Only Look Once V3） algorithm is selected. In order to further improve the detection accuracy， another feature scale is added to carry out feature fusion with other feature scales. In addition， k-means clustering is used to redetermine the anchor frame and at the same time， a certain number of network layers are added. Experimental results show that the detection accuracy and recall rate of the improved YOLOV3 algorithm reach 75.3% and 98.1%， which are 2.3% and 0.7% higher than the original algorithm， respectively.

Key words：YOLOv3; object detection; k-means; feature fusion; PASCAL VOC

1 引言

目标检测是计算机视觉领域中最基本也最具挑战性的问题之一，近年来随着深度学习的不断发展取得了十分显著的成果，同时也被应用于许多领域，如人脸检测、行人检测、车辆检测、文本检测等等。在目标检测方面，国内外学者先后提出了许多不同的算法。自2012年Krizhcvsky等人提出AlexNet[1]这种深度卷积神经网络（DCNN）模型起，计算机视觉领域大部分研究重点都放在了深度学习方法之上。从R-CNN[2]、SPP-Net[3]、Fast R-CNN[4]、Faster R-CNN[5]等这些two-stage算法，再到YOLO[6]（You Only Look Once）、YOLOv2[7]、YOLOv3[8]、SSD[9]等one-stage算法，检测精度和检测速度逐渐提升。本文在YOLOv3算法的基础上进行了改进，经实验对比证明，与原YOLOv3算法相比检测效果得以提升。

2 YOLO算法

在YOLO算法出现之前，目标检测需要重新利用分类器来进行检测，流程复杂，很难优化。YOLO算法则将目标检测框架看作回归问题，从空间上分割边界框和相关的类别概率，经过一次评估即从图像上预测边界框和类别概率，可以实现直接对检测性能端到端的优化，检测速度得到大大的提升。

YOLO算法首先将输入图像分为S×S个网格，如果某个目标的中心位置坐标在某个网格中，这个网格就负责检测这个目标，如图1所示。每个网格负责预测B个边界框（bounding box），每个边界框再负责预测边界框位置（x，y，w，h），其中（x，y）為边界框的中心坐标，（w，h）为边界框的宽和高。此外还要预测置信度（confidence score，即该位置有目标的置信度），以及C个类别概率（即该目标属于哪一类别的概率）。

YOLOv2在YOLO的基础上作出一些改进，在每个卷积层后添加批量归一化层（Batch Normalization），加快训练的收敛速度，有利于模型的正则化，采用Darknet-19作为主干网络，使用分辨率更高的分类器，并使用锚框（anchor box）进一步提升精度。

YOLOv3的网络结构由Darknet-53和检测网络两部分组成，分别用于特征提取和多尺度预测。主干网络Darknet-53在YOLOv2的Darknet-19基础上改进而成，由卷积层和残差层构成，如表一所示，在这里去掉了所有的Maxpool层，并增加了更多卷积层，共包含23个残差块。YOLOv3首先将原始图像缩放到416×416的大小，接着通过DarkNet-53网络将原始图像按照特征图的尺度大小划分为S×S个等大的单元格，对应的3个尺度的特征图大小为13×13、26×26、52×52，再对这些特征图进行特征融合。经过5次下采样，最终输出大小为输入的1/32。该算法使用残差网络结构作为特征提取器，并采用FPN架构（Feature Pyramid Networks，特征金字塔网络）来实现多尺度检测，使得分类效果更好，在小目标上的识别率也有所提升，由于网络层次加深，所以速度相较YOLOv2会稍慢，但检测精度进一步得到提升。