混合Boost算法实现的行人检测技术

2019-06-17陈超

计算机应用与软件 2019年6期

陈超

(内江师范学院数学与信息科学学院四川内江 641110)

0 引言

在现代智能小区中实现对行人的自动检测有着及其重要的意义。随着我国城市化进程的推进，一个小区的业主往往来自四面八方，彼此之间不认识，存在多个地下车库入口、门禁系统的不完善等问题，物业管理公司形似摆设，实现对行人的自动检测和识别有着举足轻重的作用。视频图像中检测和识别感兴趣目标成为研究热点和难点。不同于刚性目标有固定的形状和空间结构，行人目标存在着形变、部分遮挡和观察角度变化等问题会影响检测效果。当前较为经典的行人检测方法有Wen等[1-4]提出的一种对于汽车分类器的快速学习算法、惩罚式AdaBoost算法、RBoost算法、基于SBoost算法等。Shen提出误差纠偏方法可以检测到潜在的样本有效的避免过拟化问题[5-6]。Chen提出选择性组合弱分类器，Frenay提出噪声标签分类器来提高分类器精准度[7]。Nguyen 提出了在二分分类器中的丢失性训练算法[8-11]。 Patel提出了渐进式学习分类器[12]。有学者提出k-均值聚类算法初始化分类器等[13]。Zhu提出对姿态估计等算法来改进Boost算法取得了较好效果，但是精准度和过拟化问题任然存在[14-15]。分别使用MIT行人数据库、Caltech行人数据库和INRIA行人数据库上做对比实验。实验结果表明，提出的方法可以有效提高行人检测的精度和效率，同时有效防止分类器过拟合问题。

1 AdaBoost算法原理及实现步骤

1.1 经典AdaBoost算法

作为自适应提升式AdaBoost算法，每次迭代得到的弱分类器组合成一个分类功能较大的强分类器，最后利用决策树生成目标分类器[1-3]。

1.2 基本训练分类器步骤

1) 输入为N个训练样本：

(x1,y1),(x2,y2)，…，(xn,yn)

i=1，2，…，N,yi={-1,1}，其中-1表示非目标训练样本，+1表示目标训练样本；

2) 对于yi={-1,1}分别进行初始化对应的权值：

式中：m表示集中训练的非目标样本的数目,l表示训练时候设定的目标训练样本的数目[1-3]。

3) 进行循环(whilet=1，2，…，T)：

(2) 为每个特征弱分类器ht,计算该当前权值的错误率：

(3) 选择最小的错误率ε，所对应的判决函数作为本次迭代得到的弱分类器；

4) 生成强分类器：

1.3 分类器设计

图像分类就是用AdaBoost算法实现目标和非目标的分类[11-14]。设图像样本的特征为X，对应的分类标签为Y，其中y={+1,-1}分别对应正负样本。训练样本集S={(x1,y1),(x2,y2),…,(xN,yN)}，其中xi∈X,yi∈Y。N是样本个数。在算法实现中，取正样本为行人即没有背景的行人或者是背景很单一的行人；负样本为没有行人的任何样本，要求尺度大于正样本的归一化尺度的灰度图像，其算法具体步骤如下[1-3，7]：

1) 初始化权重，对于每个(xi,yi)∈S，权重初始化为：

2) 令t=1：

(3) 更新样本权重：

式中：Zt是归一化因子，使得总体权重之和为1；

(4)t=t+1，设T为弱分类器最大训练的次数,假如t=T,则训练结束，假如t

3) 组成强分类器：

使用倒置的决策树级联成具备图像目标分类功能的超级级联分类器。

2 混合Boost算法

2.1 PBoost算法

一种带惩罚因子的AdaBoost算法通过概率中的边缘分布来优化精度AdaBoost算法的泛化误差[2]。其中样本权重如下：

(1)

要实现不平衡采样，必须保证m和n要相差较大，权重初始化[2]为:

(2)

反馈因子：

mi,t=exp(-Margint-1(xi))/Ut

(3)

(4)

弱分类器为：

(5)

弱分类器的权重更新公式：

(6)

其中：

(7)

式中：γ为设置的一个整型参数，本文取50。

2.2 SBoost算法

一个选择性的Boost算法[3]的重点在于提高分类器的泛化性能而不是在暴力训练的样本上，暴力训练的惩罚因子被使用来降低相关联的噪声程度。同时引入误差纠偏方法有效地检测到潜在清晰样本，以致阻止了误分类器来避免过拟合问题。

2.3 混合Boost算法

(8)

理论2：给出样本权重调节器，使用βt代替经典AdaBoost算法[3]中的ht，样本所占比例可以重新定义为：

(9)

第i个样本的累积权重计算为：

(10)

(11)

(12)

由于训练样本中可能存在含有噪声容易导致过拟合，在此引入了K-领域方法来标记噪声样本和评价噪声程度。找出在训练集中一个特定的目标样本最近的K个样本，在这K个样本中有P个样本含有同样的标签，其中0≤P≤K,这些样本的噪声程度定义为：

(13)

其中噪声程度独立于循环次数，每次迭代时使用式(14)来更新样本权重：

0≤ϖt(i)≤βt

(14)

其中,

(15)

为Sboost算法的代价函数[3]。

(16)

令式(16)等于0，并相对于βt求导得：

(17)

把式(17)代入式(16)得到下式：

(18)

改进后的概率为[3]：

P[φt(xi)≤γ]=

(19)

式中：γ是一个(-1,1)之间的一个实参数。

理论3：误差纠偏方法表示如下：

(20)

2.4 混合boost算法的主要步骤

Step1输入为m+n个训练样本,其中m为负样本个数，n为正样本个数，非平衡采样时要保证m和n有较大差异：(x1,y1),(x2,y2)，…，(xn,yn),i=1，2，…，N,yi={-1,1}，其中-1表示非目标训练样本，1表示目标训练样本；

Step3进行循环(whilet=1,…,T):

(4) 使用下式来更新弱分类器的权重：

(21)

(5) 生成强分类器为:

H(x)=sign[ft(xi)]

(22)

3 实验

3.1 实验数据信息

本实验环境是Window 7系统、MATLAB R2013A、英特奔腾CPU 3.00 GHz(2 CPUs)、内存4 GB。为了验证改进后的算法的效率，使用来自文献[3]中KEEL数据集的12个参考数据集做对比性仿真实验，如表1所示。

表1 KEEL数据集相关信息

3.2 平均测试误差分析

样本数量从106到19 020且特征数量从5到60[3]。分别使用AdaBoost算法、P_Boost算法、S_Boost算法、M_Boost算法从不同噪声度下成功检测率误差、平均测试误差等方面进行对比实验。

分别对噪声为0%、5%、10%的训练样本和测试样本进行对比实验，威尔科克森标识排名测试[3]显示如表2、表3、表4所示。

表2 0%(噪声度)时平均测试误差

表3 5%(噪声度)时平均测试误差

表4 10%(噪声度)时平均测试误差

AdaBoost、P_Boost、S_Boost、M_Boost分别简写为AB、PB、SB、MB,加粗部分是本次试验误差最小者,本次实验为200个弱分类器时的平均检测误差是指每种算法和当前检测的平均值的绝对差。

3.3 成功检测率误差分析

成功检测率误差是指每种算法的正检率与真实行人目标的差异，结果如表5、表6、表7所示。

表5 0%(噪声度) 时成功检测率误差

表6 5%(噪声度)时成功检测率误差

表7 10%(噪声度)时成功检测率误差

表中加粗部分是本次试验正检率最大者；由此可见改进后的算法对大多数实验数据集在误差程度增加的时候较其他算法有一定的稳定优势。

3.4 检测目标的时间复杂度分析

计算机算法复杂性的衡量标准是该算法完成相应功能时所需要消耗的计算机资源的多少，主要包括时间和空间两个部分，即时间复杂性和空间复杂性两个部分构成[16]。改进后的算法在检测目标时，没有增加额外时间开销，在普通的计算机上即可完成实验。在上述数据集检测时没有出现数量级的增加，所以没有增加时间复杂度。

3.5 检测目标的空间复杂度分析

空间复杂度是对一个算法在运行过程中临时占用存储空间大小的量度。一个算法在计算机存储器上所占用的存储空间，包括存储算法本身所占的存储空间，算法的输入输出数据所占用的存储空间和算法在运行过程中临时占用的存储空间这三个方面[16]。混合AdaBoost算法没有添加太多的代码，只是在算法内部进行了修改，因此存储算法本身所占用的存储空间没有增加。输入输出数据所占用的存储空间和其他算法完全一样，都是输入同样的图像集，输出都是检测到的图像目标，所以输入输出数据所占用的存储空间没有增加。运行过程中临时占用的存储空间与其他算法相比较没有增加。总体来说混合AdaBoost算法没有增加空间复杂度。