APP下载

基于随机森林的手指静脉识别方法研究

2016-10-13刘华明曹红兵徐正梅毕学慧

关键词:特征向量识别率分类器

杨 颖,刘华明,曹红兵,徐正梅,毕学慧

(阜阳师范学院 计算机与信息工程学院,安徽 阜阳 236037)

基于随机森林的手指静脉识别方法研究

杨颖,刘华明,曹红兵,徐正梅,毕学慧

(阜阳师范学院 计算机与信息工程学院,安徽 阜阳 236037)

利用手指静脉造影识别人的身份已发展成为自动身份识别领域的一种重要方式,并广泛应用于多种实际场景。为了提升手指静脉图像的识别率,提出了一种基于随机森林的手指静脉识别方法。先将灰度化的手指静脉图像利用圆形等价模式LBP算子计算出编码值,然后通过子窗口直方图降维获取用于识别的特征向量,用随机森林集成分类器完成分类识别。通过实验对比分析,结果表明该方法能达到较理想的识别效果。

手指静脉识别;随机森林;LBP;SVM

自动生物特征识别是利用人体的生理/行为特征来实现对身份的自动鉴别,其中手部特征识别是生物特征识别领域的一类重要研究内容。用于自动身份识别的手部特征包括手部生理特征和手部行为特征。目前,手部生理特征主要包括:手部几何特征(手形、指形)、手部体表纹理特征(指纹、掌纹、指节纹)、手部体内静脉纹路特征(手指静脉、手掌静脉和手背静脉);手部行为特征主要有动态签名和击键姿势,等等[1]。手指静脉、手掌静脉和手背静脉等以体内静脉纹路为识别特征,活跃了手部特征识别的研究内容。静脉识别因其高唯一性、高安全性、非接触式和活体识别等优越特性正逐步成为自动身份识别技术中的佼佼者,尤其是手指静脉识别因其采集装置小、成本较低而倍受青睐[2]。

对手指静脉识别的研究涉及:研制手指静脉图像获取装置、手指静脉识别方法、融合手指静脉的多模态生物识别和手指静脉图像质量评价,等等。与其他生物特征识别过程一样,手指静脉识别主要包括图像获取、图像预处理、特征提取与匹配等主要环节。2004年Miura等[3]首次提出了“重复线形跟踪法”分割出手指静脉纹路,用模板匹配法进行识别。文献[4-5]通过提取手指静脉纹路中的细节点(包括分叉点、端点)作为识别特征,计算相似度完成匹配。文献[6]基于空间投影变换提取特征,计算待匹配图像之间的欧式距离,通过BP神经网络进行分类。Hyeon Chang Lee等[7]提出用加权的LBP算子(3×3基本结构)提取静脉特征,基于支持向量机(Support Vector Machine,SVM)进行分类。文献[8]在提取LBP编码后,从同一个人同一手指的多个静脉图像样本中提取出LBP编码的个性化最大位图(Personalized Best Bit Map,PBBM),计算相似度完成识别。文献[9]提出了融合静脉图像的局部特征和全局特征的方法,在识别阶段用SVM进行分类。文献[10]用手指静脉和手指轮廓的个性化融合方法提升识别率。综合分析相关文献,在匹配识别阶段,主要采用模板匹配、计算相似度或者是通过分类器完成识别。应用于手指静脉匹配识别阶段的分类器有神经网络、最近邻和SVM等单分类器,却少有采用多分类器集成算法进行分类的。集成分类算法的思想是通过多个分类器的组合来提高分类识别的精度,是机器学习的首要热门方向。比如,随机森林集成分类算法在人脸识别[11]、视网膜识别[12]等表现出比较好的效果。论文提出了基于随机森林(Random Forest,RF)的手指静脉识别方法,并在特征提取上引入小窗口统计直方图降维的思想。实验结果表明随机森林算法在手指静脉识别上能够获得比较理想的识别结果。

1 相关技术

1.1LBP特征提取方法

LBP算法是一种典型的纹理图像特征提取方法,它通过对邻域内像素灰度值大小比较进行二元编码来提取特征,邻域划分包括矩形和圆形。图1示意了一组不同半径和不同数目的采样点的圆形邻域,记作LBPP,R,表示在半径为R的圆形区域内含有P个采样点。Ojala等[13]对LBP进行扩展,提出了一种“等价模式”(Uniform Pattern)。所谓等价模式是指在圆形的二值编码中,对应的二进制串中从1到0或从0到1的跳变次数小于两次的模式,都是等价模式类,除等价模式类以外的模式都归为混合模式类。等价模式记作等价模式能描述大部分的纹理信息并且具有很强的分类能力。

图1 圆形LBPP,R邻域模型示意图

以图1中的LBP8,1为例,说明如何对图中的像素进行LBP编码。图中八个黑色的采样点,每个采样点p的坐标值(xp,yp),通过公式(1)和(2)计算:

其中,(xc,yc)为邻域中心点gc的坐标,(xp,yp),p∈P为某个采样点gp的坐标。通过上式可以计算圆中任意采样点的坐标,如果计算得到的坐标不是整数,则通过双线性插值(公式(3))得到该采样点的像素值。邻域中处于方格中心位置的像素值直接用其灰度值表示。

确定了邻域中每个采样点的像素值之后,用公式(4)对图中的每个像素进行LBP编码值的计算。其中,函数s(x)的计算公式如(5)。

1.2随机森林分类器

集成学习是一种通过训练和组合多个有差异的基学习机来获取比单个学习机更高的精度和更强的泛化性能的机器学习方法,用于分类和回归预测问题。集成分类器的思想是将决策树、神经网络、K-近邻等弱分类器构成一个强分类器,以达到提高分类性能的目的。

随机森林算法是采用自主聚类(Boot-strap aggregation,Bagging)把多个不同的决策树集成为一个学习机的集成学习方法。Bagging方法从全部的训练样本集合中通过可重复采样技术得到不同的训练样本子集,利用随机产生的多个训练样本子集训练模型,生成多个相应的决策树。在分类识别时,对每个决策树的分类结果进行投票,取票数最多的类别作为测试数据的最终类别。随机森林方法在不同数据子集上训练得到的决策树具有较高的泛化性能,同时具有较大的差异度。此外,随机森林在处理过程中,还具有不需要对图像进行预处理、不会产生过拟合现象等很多优点[14]。图2是一般的随机森林分类结构图。

图2 随机森林分类模型

2 手指静脉识别法

本文提出的手指静脉识别方法的框架结构如图3所示。该方法包括两个阶段:训练阶段和测试阶段。在训练阶段,先将训练图像库中24位位图图像转换为灰度图,然后对图像提取LBP特征向量,对训练样本的LBP特征向量用训练随机森林分类器进行训练,产生训练模型;在测试阶段,对测试灰度图像获取LBP特征向量之后,基于训练阶段产生的训练模型利用测试随机森林分类器通过投票产生分类结果。

图3 基于随机森林的手指静脉识别方法框架

一般而言,好的纹理特征提取算法具有提取的纹理特征维数不大、鉴别能力强、稳健性好、提取过程计算量小等特点[15]。综合分析,本方法中的LBP特征提取采用提取手指静脉图像特征,考虑到图像采集过程中的平移、旋转等不对准现象,同时也对LBP特征值做降维处理,引入了划分小窗口以及采用对小窗口内编码用统计直方图作为特征向量的思想。计算手指静脉LBP特征向量的算法如下:

Step1:将手指静脉图像(240×320)划分为若干个尺寸相同的子窗口(比如,24×32的子窗口);

Step3:统计每个子窗口中每个数字出现的频率,得出该窗口的直方图,并对直方图进行归一化处理;

Step4:将得到的每个子窗口的统计直方图连接成为一个特征向量(比如,原图像划分为24×32的子窗口,将获得一个100维的特征向量),即提取得到该幅静脉图像的LBP特征向量。

3 实验及结果分析

3.1实验数据集

实验图像库中包含了136人手指静脉图像信息。该数据库是从136位不同年龄、不同性别的学生或教职工的右手食指上分三个阶段采集得到的。每阶段每人采集同一手指10幅静脉图像。原始图像是分辨率为240×320的24位位图图像。同一枚手指的30幅样本间存在不同程度的平移、倾斜、旋转等情形。图4所示为图像库部分手指静脉图像样本。

图4 手指静脉图像样本。8-1是手指静脉图像编号,指第8个人的右手食指的第1幅图像,其他编号含义相同

3.2手指静脉识别法

在对灰度图像提取LBP特征向量的过程中,实验采用了划分小窗口的方式。同一幅图像小窗口的尺寸不同,提取出的LBP特征向量不一样,分类结果会受小窗口大小的影响。在实验中,基于原始图像的大小设计了6种不同尺寸的小窗口,并与未划分小窗口图像进行了实验对比。对于随机森林分类器而言,决策树的数量多少对分类结果有影响,一般而言,数量越多分类结果会越好。在实验中,从20棵树开始,每次递增20棵,直到100棵停止。随机森林分类器用随机森林工具包,其中RF_Class_C用于分类。

本实验对图像库中的4 080(136×30)幅图像进行了全部操作,未做任何挑选,其中包含低质量的图像。实验过程对提取的4 080幅手指静脉的LBP特征向量,用randperm函数随机打乱图像的顺序,然后,取其中的一半进行训练,得到训练模型,剩下的一半用训练模型进行测试,将预测的分类标签与图像本身的类别标签进行比对,标签相同表明分类正确,标签不同则说明分类错误,从而统计出识别率。其实验结果见表1。在不同子窗口和不同数量的决策树下,训练样本和测试样本都是随机的。因此,实验结果能反映出识别结果的一般意义。

表1 本文方法的识别结果

从表1可以看出,本文方法的识别率比较理想,特别是在子窗口大小为12´16,100棵决策树的情况下,识别率达到了100%。整体来看,如果在提取特征时图像不划分小窗口,识别效果相对差些。

3.3SVM分类方法

为了评估本文提出的方法的有效性,设计了基于SVM的分类方法做对照实验。SVM分类器采用台湾大学林智仁教授等设计的LibSVM工具包。用SVM分类的过程与基于RF的过程是类似的:随机抽取数据组成SVM的训练集和测试集,SVM核函数选用径向基函数(radial basis function,RBF)(因为它的参数比二项式函数少)。根据训练得到的模型进行测试,统计测试的准确度。其实验结果见表2。识别率的整体统计结果均低于90%。

表2 基于SVM的识别结果

考虑到图像中的背景噪声对SVM分类的影响,又加入了一系列图像预处理工作后重新实验。预处理操作包括[9]:(1)图像灰度化。采集到的原始图像是24位彩色图像,转化为8位灰度图像(图5(a)。(2)提取感兴趣区域(region of interest,ROⅠ)。先通过边缘检测算法提取手指边缘轮廓,基于边缘轮廓截取矩形区域作为ROⅠ(图5 (b)。(3)尺寸归一化。由于手指粗细形状的差异,使得提取出的ROⅠ尺寸不同,使用双线性插值将ROⅠ图像归一化为统一的64×96尺寸(图5(c))。(4)灰度归一化。原始图像的灰度分布较集中,不利于特征提取,利用线性灰度调整方法将灰度归一化为[0,255]范围(图5(d)。

图5 预处理图像

对预处理后得到的64×96归一化图像采取小窗口区域划分的方式,对小窗口的尺寸重新划分,设计了6种不同尺寸的小窗口,并与未划分小窗口图像进行了实验对照。实验结果见表3。由表中数据可知,增加预处理后的SVM分类识别率提升了将近10个点,但是还是低于RF的识别结果。

3.4实验结果分析

综合上述实验结果,可以看出:(1)基于随机森林的手指静脉识别方法获得了较高的识别率;(2)在利用RF分类时,只对原始图像进行简单的灰度化处理就能得到理想的识别结果,而使用SVM分类有必要采取一系列的预处理工作,否则识别效果非常不理想;(3)在LBP特征向量提取过程中,划分小窗口的方式有助于识别率的提高。

表3 预处理后的SVM识别结果

4 结束语

本文提出了一种基于随机森林的手指静脉识别方法,主要包括以下步骤:首先,对图像进行灰度化的预处理;然后提取LBP特征向量,特征提取时引入了小窗口划分的思想,目的是起到降维作用和减缓图像不对准等的影响;最后,利用随机森林完成分类识别。该方法实现过程相对简单,能取得较理想的识别率。

随着手部特征自动识别技术的发展,手指静脉特征识别研究和应用也非常活跃。对于自动手指静脉识别而言,提升识别率是永恒的主题,而识别算法在一定程度上会受图像质量的影响。在下一阶段的研究中,将考虑对手指静脉图像质量的评价研究以及基于图像质量评价的识别技术。

[1] 骆庆忠,廖庆敏,陈友斌.综述:基于手部特征的生物识别[C]//2007年全国模式识别学术会议论文集,北京:科学出版社,2007:273-281.

[2]Yang L,Yang G P,Yin Y L,et al.A survey of finger veinrecognition[C]//BⅠOMETRⅠCRECOGNⅠTⅠON (CCBR 2014),8833.Shenyang,China,2014:234-243.

[3] Miura N,Nagasaka A,Miyatake T.Feature extraction of finger-vein patterns based on repeated line tracking and its application to personal identification[J].Machine Vision andApplications,2004,15(4):194-203.

[4] Yu C B,Qin H F,Cui Y Z,et al.Finger-Vein image recognition combining modified hausdorff distance with minutiae feature matching[J].Ⅰnterdisciplinary Sciences,Computational Life Sciences,2009,1(4):280-289.

[5]Liu F,Yang G P,Yin Y L,et al.Singular value decomposition based minutiae matching method for finger vein recognition[J].Neurocomputing,2014,145:75-89.

[6] Wu J D,Liu C T.Finger-vein pattern identification using principal component analysis and the neural network technique[J].Expert Systems With Applications,2011,38(5):5423-5427.

[7] Lee H C,Kang B J,Lee E C,et al.Finger vein recognition using weighted local binary pattern code based on a support vector machine[J].Journal of Zhejiang University-Science C-Computers&Electronics,2010,11 (7):514-524.

[8] Yang G P,Xi X M,Yin Y L.Finger vein recognition based on a personalized best bit map[J].Sensors,2012,12(2):1738-1757.

[9] 杨颖,尹义龙,杨公平,等.融合局部特征和全局特征的手指静脉识别方法[J].计算机工程与应用,2012,48(14):158-162.

[10]袭肖明,尹义龙,杨公平,等.基于手指静脉和手指轮廓的个性化融合方法[J].计算机研究与发展,2013,50(9):1914-1923.

[11]黄琛,丁晓青,方驰.一种鲁棒高效的人脸特征点跟踪方法[J].自动化学报,2012,38(5):788-796.

[12]Yan X W,Yang G P,Yin Y L,et al.A classificationbased method for retinal image quality assessment[J]. Ⅰnternational Journal of Electrical Engineering,2014,21(3):75-83.

[13]Ojala T,Pietikainen M,Maenpaa T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].ⅠEEE Transactions on Pattern Analysis and MachineⅠntelligence,2002,24 (7):971-987.

[14]黄衍,查伟雄.随机森林与支持向量机分类性能比较[J].软件,2012,33(6):107-110.

[15]宋克臣,颜云辉,陈文辉,等.局部二值模式方法研究与展望[J].自动化学报,2013,39(6):730-744.

Finger vein recognition based on random forest

YANG Ying,LⅠU Hua-ming,CAO Hong-bing,XU Zheng-mei,BⅠXue-hui

(School of Computer and Information Engineering,Fuyang Normal University,Fuyang Anhui 236037,China)

Ⅰt is an important method in the field of automatic identification using the finger vein recognition.Ⅰt is widely used in many practical situations.Ⅰn order to improve the recognition rate of finger vein image,the new finger vein recognition method based on random forest was proposed.Firstly,the codes of gray finger vein image were calculated by the circular Uniform Pattern LBP operator.Secondly,the feature vectors were extracted using the histograms of sub windows,then which were classified based on random forest ensemble classifier.The results show that the proposed method can achieve better recognition results than the experiments of references.

finger vein recognition;random forest;LBP;SVM

TP391

A

1004-4329(2016)01-078-05

10.14096/j.cnki.cn34-1069/n/1004-4329(2016)01-078-05

2015-09-30

安徽省教育厅自然科学项目(KJ2013B192);阜阳师范学院自然科学项目(2014FSKJ08,2015FSKJ08);安徽省质量工程项目(2013zy167);阜阳师范学院质量工程项目(2013ZYSD05,2014JXTD01)资助。

杨颖(1973-),女,硕士,副教授,研究方向:图像处理、生物特征识别。

猜你喜欢

特征向量识别率分类器
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
一类特殊矩阵特征向量的求法
BP-GA光照分类器在车道线识别中的应用
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器