APP下载

基于特征融合的双模态生物识别方法

2022-08-30周卫斌吉书林

天津科技大学学报 2022年4期
关键词:特征提取人脸模态

周卫斌,王 阳,吉书林

(天津科技大学电子信息与自动化学院,天津 300222)

近年来,信息技术飞速发展、智能设备不断普及,指纹识别[1]、人脸识别[2]、虹膜识别[3]、语音识别[4]等身份识别技术早已应用于日常生活中的各个方面.然而,单模态生物特征识别技术在实际应用中不仅受外部环境的影响,还受自身局限性的影响,极大地限制了其应用场景,降低了身份识别的准确率.例如,指纹破损或者沾水会降低指纹识别的准确率;佩戴口罩会降低人脸识别的准确率;佩戴眼镜会降低虹膜识别的准确率.因此,双模态融合识别对于弥补单一生物特征识别的缺陷、提高身份识别的准确率、增强信息的安全性具有重要意义.相比于三模态、四模态等多模态的生物识别方法[5],指静脉和人脸的双模态识别不仅减少了计算量、降低了算法复杂度,还使体内生物特征(指静脉)与体外生物特征(人脸)的优势得以互补,打破了单一生物特征识别的应用局限,提高了身份信息的安全性和身份识别的准确率.

双模态生物特征识别技术是融合两种单一生物特征作为新的特征进行识别的方法[6].指静脉和人脸属于两种不同的生物特征,根据融合发生的位置不同,可分为数据层融合、特征层融合、匹配层融合和决策层融合,如图1所示.

图1 双模态生物特征融合框图 Fig. 1 Block diagram of bimodal biological feature fusion

数据层融合属于最低层次的融合[7];匹配层融合又称分数层融合,不同样本经匹配层得到与模板库的匹配分数,经过归一化处理后进行匹配分数融合[8];决策层融合类似投票表决机制,对不同样本的决策结果(接受/拒绝)进行融合[9];特征层融合发生在特征提取模块,不同样本经过特征提取获得各自的特征向量,然后将特征向量通过特征串联、级联等方式拼接成一个新的特征向量,将新的特征向量作为生物识别系统的输入进行匹配和决策[10].特征层具有丰富的有效特征信息,是众多学者研究的热点.例如,Yang等[11]利用统一的Gabor滤波器框架提取指纹和指静脉特征,提出一种新的监督局部保持典型相关分析方法(SLPCCAM),用于生成特征层融合的指纹指静脉特征向量(FPVFVs);只使用一个数据库对该方法的性能进行评估,在实际应用中具有很大的局限性. Veluchamy等[12]提出将指关节和手指静脉进行特征层融合,并采用支持向量机(SVM)分类器进行多模态生物识别,但是该方法在特征融合后产出的新特征向量的维数过高.Pan等[13]提出一种基于核Fisher判别分析(KFDA)方法,并结合平均规则、加权求和规则和乘法规则实现人脸和人耳的特征层融合,但是该方法同样也出现了“维度灾难”现象.

近年来,卷积神经网络(CNN)的发展在生物识别系统中产生了非常大的影响,并取得了优异的成 果[14].传统算法提取图像特征需要大量手工标注,而卷积神经网络对图像逐像素卷积的方式,能够快速、高效地提取到图像多尺度特征.

1 本文方法的实现

在众多的生物特征中,人脸图像是最自然、最明显的个人识别特征;指静脉是体内生物特征,不易被损坏、伪造和复制,并且每个人、每个手指之间指静脉特征都具有差异,具有极高的安全特性[15].鉴于卷积神经网络在图像识别和图像特征提取任务中的出色表现,本文融合指静脉和人脸特征,提出一种高效的双模态生物识别方法.首先获取指静脉图像和人脸图像的感兴趣区域(ROI),并针对指静脉图像数据规模较小的问题,采用数据增强方法用于扩充数据.然后将指静脉和人脸ROI图像输入到双通道卷积神经网络中提取图像特征.在全连接层之前,根据各特征的置信度分配权重,并进行特征融合,形成新的特征用于身份识别.该方法的实现过程如图2所示.

图2 双通道卷积神经网络结构图 Fig. 2 Structure diagram of two-channel convolutional neural network

1.1 特征提取网络

在图像分类识别领域,特征提取网络的好坏直接决定着识别结果的准确率.AlexNet网络是一种简单的卷积神经网络,共有8层,其中前5层用于特征提取[16].相对较浅的网络层数决定了AlexNet网络的准确率较低.VGG网络通过堆叠多个尺寸为3×3的卷积核来代替大尺度卷积核,并且与大尺度卷积核拥有相同的感受野.VGG-19网络有19层,前16层用于特征提取[17].相比于前两种传统的卷积神经网络,MobileNet网络内存需求小、运算量小,可以部署到移动设备以及嵌入式设备上.MobileNetV2网络引入深度可分离卷积,由逐通道卷积和逐点卷积组成,减少了模型参数和运算成本[18].此外,MobileNetV2网络使用反向残差结构,在增加网络层数的同时,也使特征表达能力得到增强.

1.2 特征融合方法

本文提出的双模态特征融合方法在特征层采用双通道卷积神经网络模型实现特征融合,其实现过程如图3所示.

图3 双模态特征融合框架 Fig. 3 Framework of bimodal feature fusion

整体框架分3个模块:特征提取模块、特征融合模块和分类识别模块.在特征提取模块之前,对指静脉图像和人脸图像进行预处理,预处理过程包括对指静脉图像感兴趣区域进行截取、数据增强和数据扩容.每个生物特征都被输入到卷积神经网络模型中,经过多层卷积层和池化层,提取图像的特征信息,得到指静脉特征(Fv_feature)和人脸特征(Face_feature). 特征融合模块是该框架的核心模块.将经过特征提取模块后的指静脉特征和人脸特征进行卷积操作降维,再经过Softmax层,分别得到自注意力权重,并与特征提取所得到的特征相乘;将两特征融合到一起,得到指静脉与人脸的融合特征(Fv+Face_feature);经过特征提取后得到更深层的融合特征(Fusion_feature).为防止在特征融合时出现部分特征信息丢失的情况,将特征提取后的指静脉特征、人脸特征、融合特征三者再次融合到一起.两次融合保证了特征信息最大化.最后经过全连接层进行分类识别.

本文分别选择AlexNet网络、VGG-19网络和MobileNetV2网络的特征层,用于提取指静脉和人脸图像特征,作为特征融合模块的输入.为避免在融合模块出现过拟合现象和减少融合后的运算量,本文采用自适应均值池化的方法和Dropout技术.

2 数据处理及实验

实验软件环境:Python3.8、CUDA11.0、cuDNN 8.0、Pytorch1.7.1、Ubuntu18.04;硬件平台:NVIDIA GeForce RTX 2080 Ti GPU.

2.1 公开数据集

为了验证本文所提出的双模态特征融合方法的有效性,同时表明它与单模态生物特征识别的优势,实验过程选用指静脉公开数据集SDUMLA-FV[19]和Finger Vein USM(FV-USM)[20]、人脸公开数据集CASIA-WebFace[21],对本文提出的双模态特征融合方法的有效性进行测试,并与单模态生物特征识别方法进行对比.

SDUMLA-FV数据集是由山东大学机器学习与数据挖掘实验室创建,包含106人的左、右手的食指、中指和无名指中每根手指的6张指静脉图像,共636类手指图像,总计3816张.FV-USM数据集是马来西亚理工大学创建,包含123人的左、右手的食指和中指中每根手指的6张图像,共492类手指图像,总计2952张.FV-USM数据集提供了已经截取好的ROI图像,为后续指静脉图像的预处理提供了方便.CASIA-WebFace数据集是应用于人脸识别领域最广泛的公开数据集之一,该数据集收集了网络上的人脸图像,共10575类,494414张图像.在实验中,根据指静脉图像的类别数,随机从人脸数据集中选择相同的类别数.

2.2 图像预处理

由于SDUMLA-FV数据集没有提供指静脉的ROI图像,所以需要对该数据集中图像进行ROI的截取,以去除过多的背景无用信息.采用Prewitt边缘检测算子对指静脉原图垂直方向上的上下边缘进行边缘检测,对于存在伪边缘的现象,通过设置连通域阈值去除伪边缘.使用最小二乘法线性回归拟合手指的中轴线,根据拟合直线与水平线的夹角将图像旋转矫正;拟合手指上下边缘的内切线;根据图像水平方向上的亮度变化趋势,选择指关节处(即亮度峰值处);最后截取手指静脉ROI图像.

为了获得清晰的指静脉纹路,还需要对截取的ROI图像进行对比度受限自适应直方图均衡化(contrast limited adaptive histogram equalization,CLAHE),并在CLAHE图像增强之后添加Gabor滤波器,用于去除图像增强后的噪声.SDUMLA-FV数据集图像的预处理过程如图4所示,ROI原图经过CLAHE图像增强、Gabor滤波去噪后,相比于原图可以得到清晰的静脉纹路.SDUMLA-FV和FV-USM数据集只提供了每根手指6张静脉图像,为防止卷积神经网络模型训练过程中出现过拟合现象,对每一类指静脉进行数据扩增,其中包括对图像随机平移、旋转、裁剪、亮度调节、对比度调节,将原本每类6张图像扩充至每类36张图像.FV-USM数据集提供了ROI图像,因此只需要对该数据集进行图像增强和 扩充.

图4 SDUMLA-FV数据集图像的预处理 Fig. 4 Image preprocessing of SDUMLA-FV datasets

2.3 实验结果与分析

实验中将每一类别中的数据(36张)按照7∶3的比例划分训练集和测试集.为了提高网络的泛化能力,在融合模块中,每张指静脉图像与每张人脸图像一一对应.单模态实验和双模态特征融合实验数据分布结构见表1.

表1 实验数据分布 Tab. 1 Experimental data distribution

实验中,所有的模型输入尺寸均为224像素×224像素,激活函数为ReLU,优化器选用Adam,学习率设置为0.0001.分别对不同数据集、不同特征提取网络进行对比实验,识别准确率的实验结果见表2.

表2 不同数据集、不同特征提取网络的识别准确率 Tab. 2 Recognition accuracy of different datasets and different feature extraction networks

由表2可知:在单模态识别实验中,只有VGG-19模型对SDUMLA-FV数据集的识别准确率较高,为94.36%,其他单模态识别实验的识别准确率均处于较低水平.在双模态特征融合实验中,VGG-19融合模型对SDUMLA-FV+CASIA-WebFace数据集的识别准确率为99.95%,对FV-USM+CASIAWebFace数据集的识别准确率为99.94%.其他双模态特征融合实验的识别准确率均高于98.80%,相比单模态下的识别准确率均得到了很大提升.对比Alay等[22]使用VGG-16基础网络进行的虹膜、人脸和指静脉三模态特征融合方法,本文所提出的方法在只使用两种生物特征融合的情况下,识别准确率相比于三种生物特征融合均有所提升.为了进一步验证所提出的双模态特征融合方法的有效性,将融合模态与MobileNetV2轻量级网络结合并考察其识别准确率.由表2可知:轻量级网络模型(MobileNetV2)相比于AlexNet、VGG-19网络模型,参数量大幅减少,并且单模态识别准确率也大幅降低,但双模态特征融合识别实验可以达到与AlexNet、VGG-19网络相当的识别准确率.

每个模型识别一张图像(融合模型为识别指静脉和人脸两张图像)的时间性能对比见表3.从表3中可以看出,融合模型的耗时与单模态识别的耗时差异不明显.

表3 时间性能 Tab. 3 Time performance

3 结 语

本研究提出了一种基于卷积神经网络模型的指静脉和人脸特征融合识别方法,解决了实际应用场景中单一生物特征识别准确率低、安全性差的问题.对比实验结果表明本文提出的方法可以有效提高生物特征识别的准确率.此外,本文所提出的AlexNet融合模型和VGG-19融合模型,参数量均少于AlexNet、VGG-19网络,但是轻量级网络MobileNetV2上参数量并没有减少.对于这一问题,下一步还需要继续对网络结构进行优化.同时,本研究还需要进一步在实际复杂场景的数据集上进行对比实验.

猜你喜欢

特征提取人脸模态
同步定位与建图特征提取和匹配算法研究
联合仿真在某车型LGF/PP尾门模态仿真上的应用
基于老年驾驶人的多模态集成式交互设计研究
有特点的人脸
玻璃窗上的人脸
模态可精确化方向的含糊性研究
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于曲率局部二值模式的深度图像手势特征提取
“领家系”可爱脸VS“高冷系”美人脸
长得象人脸的十种动物