基于Faster-RCNN 的行人检测方法探讨

2020-07-12朱东弼

科技视界 2020年26期

李恒朱东弼

0 引言

行人检测（Pedestrian Detection）是检测图像中的目标位置，利用相关技术判定所提供的图像是否存在行人并给出精确的位置标识[1]。行人检测方法可分两大类，一类是基于背景建模的方法，核心是将前景中的目标进行特征提取然后判断是否存在目标，但背景建模会受到环境因素的影响会导致模型复杂。另一类是基于统计学习的检测方法，它的核心是依据海量样本对图像特征进行提取，然后分类，但是也会受到多种因素干扰而发生漏检或者重复检测的问题，而影响检测效果。

1 基于深度学习的现有行人检测方法分析

2012 年后，目标检测进入深度学习时代，2013 年，Sermanet 等人使用卷积稀疏编码对卷积神经网络进行行人检测的研究[2]。谢林江等人针对复杂背景因素影响检测效果问题，提出了改进版的神经网络模型，使得行人的特征更加明显[3]。当前经典的目标检测算法网络模型分为两大类：一类是基于区域建议的two-stage 算法，如2015 年的开创者RCNN、改进的Fast R-CNN 及2016 年进阶版的Faster R-CNN[4]，另一大类是one-stage 算法，比如经典的YOLO 系列、SSD 等算法，相比于two-stage 算法，这些算法不包含区域建议模块，不利于网络学习，从而拉低了整体的准确率。

虽然行人检测系统与深度学习相结合使得检测效果有所提升，但是由于人体姿态的复杂程度和背景因素的影响，且行人属于小尺度目标，因此会影响检测出行人的准确率。

2 基于Faster- RCNN 的行人检测方法

2.1 行人检测过程

Faster-RCNN 行人检测流程首先使用全卷积神经网络（Convolutional Neural Network，CNN）对原始图像进行特征提取，然后对特征图进行候选框推荐，对于更可能是目标物体的给与更高的概率完成候选区域的推荐。同时对特征图进行窗口的选择，由于推荐的窗口大小不同，采用自适应池化层进行统一，最后固定检测框在全连接层实现回归分类任务。

2.2 RPN

RPN 用于生成网络建议框，在输入图片时，产生候选框并进行定位显示分类概率。将RPN 和Faster-RCNN 进行训练，从而得到输出[4]。对于Faster-RCNN，没有固定的输入原始图片尺寸，但通常将输入的图片短边设置成600。如对于一张1 200×1 800 的图片，会把图片缩放到600×900 上。对于所输出的特征图尺寸进行五次成倍数裁剪，这里有两个基本的模块，一是Conv Block，为了改变网络维度；另一个是Identity Block，用于加深网络。为在图片中生成候选区域，要在输出的特征图中进行滑窗选择。针对特征图中的多个窗口，分别要预测出k 个目标候选区域，称为“锚”（Anchor）。每个anchor 有相对应的尺寸。如在3×3 的滑窗的中心处，根据三种不同的长宽比得到九个不同尺寸的矩形三种形状寸的anchor。使得精确度有所提升。

2.3 改进RPN

在一张图片中，真正需要检测的目标不会占据太大面积，这会产生过多的负样本，并且固定的anchor 尺寸使检测受限，所以提出使用特征去指导每个矩形框的中心，自行生成长宽比，既可以节约时间，又可以生成合适的长宽比，既可以减少生成anchor 的时间，又可以生成合适的长宽比，这样对于多变的人体姿态检测效果更好。在RPN 结构中每一层都加入Guided Anchoring 模块，作用是对特征图进行建议框预测，其中的一个anchor generation 模块作用是矩阵框的获取不同于以往的滑窗，是要在预测特征图的每一个点的像素作为目标置信度，作用是降低负样本的数量，并且高和宽的比例尺寸不是固定不变的，用CNN 的方法进行回归这样与行人的尺度可以更好地对齐。另一个模块是Feature adaption 模块，将anchor 的高和宽转换成一个有两个通道的特征图，之后再次对该特征图进行卷积，即特征重采样。用该方法通过RPN 和检测网络共享卷积层的方法缩减图像中区域建议框的计算时间来提高检测精度。