基于自适应CtF DPM特征提取的快速行人检测模型

2018-09-12徐美华龚露鸣郭爱英殷晓文

复旦学报（自然科学版） 2018年4期

徐美华，龚露鸣，郭爱英，殷晓文

(1.上海大学微电子研究与开发中心，上海 200072； 2.上海大学机电工程与自动化学院，上海 200072)

行人检测是机器视觉领域的主要组成部分，在智能监控、辅助驾驶、人机交互等系统中有着广泛应用，一直都是学者研究的热点课题[1].行人检测的研究工作主要可以分为两大部分：特征提取和分类器训练.提取特征采用的算子称为特征描述算子，它可以分为标量特征、矢量特征和深度学习特征.

标量特征具有计算速度快，实时性好等特点，典型的有Papageorgiou、Viola等[2-3]提出的Haar-like特征.该特征通过提取图像中局部区域的灰度变化，并与积分图、Adaboost分类算法等结合，实现行人检测.Liu等[4]提出颜色通道结合Haar-like特征算法，优化了检测率和误检率.周书仁等[5]将局部二值模式(Local Binary Pattern, LBP)算子与Haar特征相结合，有效地降低了噪声的影响，但多特征融合算子的实时性仍需进一步完善.

矢量特征相较标量特征具有一定的不变性，因而具有更强的描述能力，如SIFT特征[6]、HOG特征[7]、Shapelet特征[8]等.Lowe等[6]提出尺度不变性特征(Scale Invariant Feature Transform, SIFT)，该特征通过检测器寻找局部图像块尺寸空间的关键点，借助霍夫投票算法确定行人位置，但该特征维度高，计算量大，实时性差.

Dalal等[7]提出的梯度方向直方图(Histogram of Orientation Gradient, HOG)特征对光照变化和微小偏移量具有不敏感性，能有效刻画人体的边缘信息，但同时存在计算复杂，检测速度慢，未利用颜色、纹理信息等缺点.针对这些问题，近年来学者提出了许多其他[9-12]的行人特征，如ICF、ACF、DPM、3D GLOH等.

Felzenszwalb等[11,13]在HOG特征基础上提出可变形部件模型(Deformable Part Model, DPM)特征.该算子通过低分辨率全局模型和高分辨率部件模型增强对特征的描述，提高了检测的准确率，但计算较为复杂.Yang等[14]将DPM与基于快速特征金字塔的聚合通道特征(Aggregated Channel Features, ACF)相结合，Cheng等[15]提出自动选择与放置的部件模型(Mixture of Deformable Part Model, MDPM)，虽然都提高了检测精度，但依旧无法满足实时性要求.

Refregier等[8]提出Shapelet矢量梯度特征，对类别物体具有排他性和较强的判别能力，但同样计算量大，实时性不高.

深度学习特征通过将低层特征组合成高层特征，具有优异的特征学习性能和检测性能，典型的算法有卷积神经网络(Convolutional Neural Network, CNN)、循环神经网络(Recurrent Neural Networks, RNN)等，但由于算法复杂计算量大，同样导致运行时间长，实际应用困难等问题[16].

综上所述，针对现有算法存在的特征提取计算量大，实时性差等问题，本文提出了一种基于自适应CtF DPM(Coarse-to-Fine Deformable Part Model)特征的快速行人检测模型.该特征通过低分辨率根滤波器得分值与经验阈值的比对情况，自适应选取高分辨率部件滤波器的特征提取区域大小，同时通过同级约束关系增强同分辨率层的特征相关性，最后与隐式支持向量机(Latent Support Vector Machine, LSVM)结合并与其他特征提取方法进行比对，实验结果证明了本文的优越性.

1 相关算法简介及整体计算量开销分析

由于深度学习算法目前较难实现实际应用，因此本文主要介绍目前在行人检测方面具有较大优势的DPM行人特征提取模型.对DPM理论模型进行计算量开销分析可知，DPM特征提取的关键开销在于每个滤波器得分的计算，而非根滤波器和部件滤波器的匹配过程.

1.1 DPM行人特征提取模型

可变形部件模型主要由一个可覆盖行人整体轮廓的低分辨率根滤波器和n个可描述行人细节信息的高分辨率部件滤波器组成.一个检测窗口中，DPM的得分是由根滤波器得分加上各部件滤波器的得分，再减去变形花费得到，而所有滤波器的得分都是滤波器参数与特征金字塔中HOG特征向量的点积运算.

假设通过该模型描述的某个检测目标共有n个部件，则定义一个根滤波器为F0，一系列部件滤波器为(P1,…,Pn)，Pi=(Fi,vi,di)，其中：Fi表示第i个部件滤波器；vi是一个二维向量，表示第i个部件滤波器的锚点位置(即形变前的位置)相对于根滤波器的坐标；di是一个四维向量，它定义了部件发生形变时，相对于锚点位置的变形花费.用H表示HOG特征金字塔，z=(p1,…,pn)表示HOG金字塔中的位置，pi=(xi,yi,li)表示位于金字塔第l层的格单元，φ(H,pi,w,h)表示以pi为左上角格单元，w为宽，h为高的矩形区域，按固定次序连接而成的HOG特征向量.当i=0时，该模型为根滤波器.故，DPM的计算得分为：

(1)

(2)

其中：b为偏移量；φd(dx,dy)为形变特征；(dxi,dyi)为部件i相对于锚点的位置.同时，每个根滤波器的综合得分来自于各个部件滤波器的最优位置得分：

(3)

在将根滤波器与部件滤波器进行匹配前，需要先计算各滤波器的响应值.记部件i在特征金字塔第l层的响应值为Ri,l(x,y)=Fi·φ(H,(x,y,l)).随后将各部件滤波器进行空间变换：

(4)

该变换不仅将滤波器扩展到邻近位置，同时也考虑了变形花费.Di,l(x,y)表示第i个部件从锚点位置变换到l层(x,y)位置时对根滤波器得分贡献最大的响应值，可以通过广义距离变换算法，在线性时间内从Ri,l中计算得到.所以，每一层根滤波器的综合得分可以用该层根滤波器响应值加上变换后的部件滤波器响应值表示：

(5)

λ表示部件滤波器为了到达根滤波器所在层的两倍分辨率层而需要在特征金字塔中往下走的层数，另外，在计算Di,l的过程中，还能同时计算部件滤波器的最佳位置：

(6)

找到高分根位置(x0,y0,l0)后，可在Pi,l0-λ(2(x0,y0)+vi)中对应的查找部件的最佳位置.

1.2 计算量开销分析

假设一个图像的总像素为A，并且所有的部件都可以进行缩放和旋转.为了计算一个部件所有可能的位置，A需要乘上不同的系数，这将导致A变得非常大.即使用最简单的树形拓扑结构计算开销，基于子部件的运算开销依然可达到O(PA2)，但这并不代表DPM中所有部件的运算开销，主要原因如下[17]：

图1 各部件与图像匹配开销Fig.1 Cost of matching parts with image

(1)O(PA2)仅代表寻找部件最优位置的运算开销，而忽略了每个部件与图像的匹配开销，如图1所示.但部件的匹配通常需要对每个部件滤波器的可能位置进行响应计算，假设滤波器的维数为D，则响应计算的开销为O(D)，整体操作的总开销为O(PA(D+A)).

(2) 考虑到特征步长为α，那么部件只能在图像中的离散位置出现，故部件可能存在的位置有A/α2个，总开销：

2 自适应CtF DPM行人特征提取

自适应CtF DPM行人特征提取首先通过比较低分辨率层根滤波器得分情况与经验阈值的关系，实现高分辨率层部件滤波器特征提取区域大小的自动选取，减少DPM运算量，然后，为避免待检测目标发生形变，进一步引入同级约束关系，以增强同分辨率层的特征相关性.

2.1 阈值划分与邻域选取

图2 不同分辨率层的父-子关系Fig.2 Parent-child relationship of different resolution layers

DPM是一种多分辨率下的行人特征提取.为了提高运算速度，可以考虑根据不同分辨率下像素间的继承关系进行简化.这种继承关系包含两个方面：一方面，在图像特征金字塔中，两个不同的物体在图像中应占据不同的图像空间；另一方面，不同分辨率下的同一像素点之间存在父-子关系，譬如金字塔层的最上层是中间层的父节点，中间层是最下层的父节点. 如图2所示，最上层、中间层、最底层分别表示不同分辨率下的检测窗口，绿色部分表示可能存在检测目标的位置.可以发现，按照传统DPM的运算方式，运算到最底层时，待进行特征提取的区域大小将会是最上层同区域的16倍，这无疑极大地增加了运算量和特征提取时间.

图3 滤波器得分与阈值划分Fig.3 Filter score and threshold division

由经验可知，低分辨率下根滤波器的最优得分即是部件滤波器的最优得分位，同时也是最有可能存在行人的位置.按照上述假设，对根滤波器得分以及最终检测结果的准确率进行统计，结果如图3(见第456页)所示.可以看到，当根滤波器得分为0.5时，最终检测结果的准确率可达85%以上，当根滤波器得分约为0.7时，最终检测结果的准确率与根滤波器检测准确率基本一致.表1比较了不同阈值与邻域下的检测准确率情况，根滤波器所在层图像分辨率较低，而在准确度不高的情况下选取较大的邻域，则意味着计算过程更趋复杂.因此，取T1=0.3、T2=0.5和T3=0.7这3个阈值，将根滤波器得分曲线分为4部分，并按根滤波器实际得分值自适应地选取部件滤波器计算区域： 3×3邻域、4×4邻域和5×5邻域，具体自适应邻域选取方式如图4所示.

表1 不同阈值与邻域对检测准确率的影响

图4 部件滤波器自适应邻域选取Fig.4 Adaptive neighborhood selection of part filters

2.2 同级约束

与DPM类似，自适应CtF DPM特征提取也包含隐式函数.假设自适应CtF DPM特征提取的根滤波器所在层(最上层)中，仅存在一个包含有w×h个格单元的31维HOG滤波器.那么在下一分辨率层(中间层)中，该层的分辨率将是根滤波器所在层分辨率的2倍，同时该滤波器将被分成4个子部件，即包含有4个w×h的31维HOG滤波器.以此类推，最底层中，则包含有16个w×h的31维HOG滤波器.用Yi(i=1,2,…,P)表示P个目标部件的位置，Yi=(xi,yi)，输入图像X，那么部件位置Y的得分可看成是所有直观项得分和变形项得分的总和：

(7)

其中：F表示父-子关系；P表示同级隐式关系；w表示用于进行模型训练的模型参数向量；SHi(Yi;X,w)=H(Yi;X)·MHi(w)表示图像位置Yi与第i个部件之间的关系，H(Yi;X)表示图像X上Yi处的HOG特征，MHi(w)表示从参数向量w中提取一部分并编码给第i个部件的滤波器参数；SFij(Yi,Yj;w)=D(2Yi,Yj)·MFi(w)表示层分辨率相差两倍及以上时，子节点Yj相对于父节点Yi的偏离惩罚，D(2Yi,Yj)=[(2xi-xj)2,(2yi-yj)2]，MFi(w)表示来自参数向量w的变形系数；SPij(Yi,Yj;w)=D(Yi,Yj)·MPij(w)表示位于同一分辨率层上的同级间形变，D(Yi,Yj)=[(xi-xj)2,(yi-yj)2].另外，二次变形花费可能受限于Yj∈Cj+2Yi的父子关系约束，Cj+2Yi表示父节点位置2Yi周围k×k的邻域.

如果自适应CtF DPM特征提取中，不存在同级隐式关系，那么该模型就会随着分辨率的改变，导致模型不健壮，将会出现如图5所示的图形多模糊现象.

尽管随着模型几何尺寸的改变，同级关系的复杂性也会随之改变，但是这种同级关系可以视每一个部件滤波器与图像的匹配情况而定.相较于采取固定的阈值，本方法采用经验阈值和自适应的计算空间域选取进行相关操作.引入同分辨率下的同级约束关系，主要是将经过不同特征提取的区域进行相应的约束，提高特征提取的关联性.自适应CtF DPM行人特征提取完整过程如图6所示.

图5 有同级约束与无同级约束可视化图Fig.5 Visualization of with or without same layer constraint

图6 自适应CtF DPM行人特征提取流程图Fig.6 Flow of adaptive CtF DPM pedestrian feature extraction

3 基于自适应CtF DPM特征提取的快速行人检测模型及性能测试

本文在自建Shu Dataset数据库中对自适应CtF DPM特征提取效果进行理论测试，并比较了有无同级约束下自适应CtF DPM特征提取得分和耗时情况.同时将本特征提取算法与其他多种算法在INRIA行人库中进行每张图中错误正例出现的频率(False Positive Per Image, FPPI)性能测试，最后在实际道路环境下对自适应CtF DPM行人检测模型进行测试.

3.1 自适应CtF DPM快速行人检测模型

自适应CtF DPM快速行人检测模型由自适应CtF DPM行人特征提取和隐式支持向量机(Support Vector Machine, SVM)[13]两部分构成，具体工作流程如图7所示.

图7 自适应CtF DPM行人检测模型流程图Fig.7 Flow of adaptive CtF DPM pedestrian detection model

首先对输入的图像进行特征提取和低分辨率层的根滤波器得分计算，接着根据图4根滤波器得分值和阈值划分，自适应的选取部件滤波器的计算区域；随后，根据自适应CtF DPM的特征提取结果，结合隐式SVM对其进行分类，并在输出图像中对行人区域进行标记.

3.2 自适应CtF DPM模型理论性能测试

为更符合国内道路的行驶情况，本文将自适应CtF DPM特征提取算法在自建Shu Dataset数据库中进行测试，选取其中连续4帧图像，测试结果如图8所示.红色表示低层根滤波器的特征提取区域，绿色表示中间层提取区域，蓝色表示顶层提取区域，可以看出，自适应CtF DPM可以较好地对行人进行特征提取.

自适应CtF DPM中，同分辨率层的各部件之间需要引入同级约束关系以保障物体不发生形变.因此，分别引入DPM以及有同级约束和无同级约束的自适应CtF DPM进行性能比较.将这些模型对Shu Dataset数据库中的1000幅图像依次进行特征提取得分统计，比较情况如图9所示.横坐标表示自适应CtF DPM的得分情况，纵坐标表示传统DPM的得分情况；绿线表示理想情况下的得分情况，黄线表示实际的得分情况.可以看到，引入同级约束后，自适应CtF DPM的性能确实有明显的改善.

考虑到同级约束对自适应CtF DPM特征提取速度的影响，本文将有同级约束和无同级约束的自适应CtF DPM分别对同一图像进行特征提取，其特征提取耗时分别为0.017s和0.014s.虽然引入的同级约束对特征提取时间造成一定的增加，但其特征提取的速度依然可以作为实时行人特征提取算子.

图8 自适应CtF DPM各层特征提取区域图Fig.8 Adaptive CtF DPM feature extraction area for each layer

图9 有无同级约束关系DPM得分情况Fig.9 DPM scores of with or without same layer constraint

为了评估自适应CtF DPM特征提取性能，本文引入VJ[18],HOG+线性SVM[7],HOG LBP[19],LatSVM-V1[11],LatSVM-V2[11],FPDW[20],CrossTalk[21]等多种特征提取算法，并采用FPPI进行性能分析.其特征提取是在Visual Studio 2012环境下使用C语言实现，检测使用的PC机配置如下： HP p6709cx Desktop PC; Dual Core Pentium E5700 @ 3.00GHz;4G内存.性能测试采用的行人数据库为： INRIA行人库中检测库2000个图片，最终得到FPPI性能曲线如图10所示.可以看到，自适应CtF DPM较其他特征提取算法具有一定优势.

图10 不同算法FPPI性能图Fig.10 FPPI performance of different algorithms

3.3 实际情况下的自适应CtF DPM模型测试

为了验证自适应CtF DPM模型的实际行人检测能力，本文将该模型在Shu Dataset数据库进行测试，部分测试结果如图11所示.图(a)～(f)分别显示了不同特殊检测环境下的行人检测结果.可以看到，当待检测图像中行人较少且遮挡粘连较轻微的情况下，如图(a)～(c)，自适应CtF DPM检测模型能很好的对行人进行标注；而当行人存在形变或粘连遮挡较为严重时，如图(d)～(f)，自适应CtF DPM检测模型能对特征明显的行人进行高效的标注，但在被遮挡的行人识别这块仍有待加强.

图11 自适应CtF DPM模型实际检测情况Fig.11 Actual detection of adaptive CtF DPM model

此外，亦将该模型在CVC-02、Daimler和Caltech等数据库中进行准确率比较，比较结果如表2所示.Caltech数据库中虽然行人个数较少，但存在较多的障碍物干扰，校测难度较大.总体来看，检测准确率在各行人数据库中均能稳定在80%以上，可见自适应CtF DPM模型在行人检测上具有较为理想的效果.

4 结论

本文提出一种基于自适应CtF DPM特征提取的快速行人检测模型.首先，该模型对计算得到的低分辨率根滤波器得分进行阈值比较，自动选取高分辨率层的行人特征提取空间，以减少特征提取计算量和提取时间；其次，为了提高同分辨率层的特征相关性，引入同级约束关系；随后，将该特征提取方法与隐式SVM相结合，并与其他特征提取方法在INRI数据库中进行检测准确性比较；最后，将该模型在实际道路环境下进行测试.理论性能和实际测试结果表明，在保证检测性能的前提下，该方法能将特征提取速度压缩至十几毫秒，极大的缩短行人特征提取的时间.