APP下载

基于CNN的人脸图像亮度和清晰度质量评价

2020-07-20黄法秀吴志红

计算机工程与设计 2020年7期
关键词:清晰度人脸亮度

黄法秀,高 翔,吴志红,陈 虎

(1.四川大学 视觉合成图形图像技术国防重点学科实验室,四川 成都 610065;2.四川大学 计算机学院,四川 成都 610065;3.四川川大智胜软件股份有限公司,四川 成都 610045)

0 引 言

自动人脸识别系统的性能很大程度上取决于获取人脸图像的质量。在具有均匀光照、正面姿态、中性表情和标准图像分辨率的受控图像采集条件下,人脸识别系统可以达到极高的识别精度。生物特征图像质量应该是识别性能的一个指标,与识别性能相关的识别误差率如FNMR(false non-match rate)或FMR(false match rate)相关,是一种理想的度量属性。从本质上讲,低质量的生物特征样本会影响识别精度[1],所以将质量度量作为识别性能的指标对人脸识别具有重要的意义。人脸图像质量评价是图像质量评价(image quality assessment,IQA)的类别及其扩展,图像质量评价可以分为主观评价和客观评价,主观评价不稳定且耗时长,难以满足自动化的要求,因此在实际应用中,客观评价更适用。客观评价方法根据原始参考图像提供的信息量又可以分为3类:全参考IQA(full reference IQA,FR-IQA)[2]、部分参考IQA(reduced reference IQA,RR-IQA)[3]和无参考IQA(no reference IQA,NR-IQA)[4]。客观评价方法中的无参考图像质量评价IQA(no reference IQA,NR-IQA),不需要任何额外信息,大大提高它的适用性和实用价值,因此本文采用无参考质量评价方法来评价人脸图像质量。

CNN可以通过局部操作对表征进行分层抽象,适合计算机视觉应用、对象检测等[5],并表现出了优越的性能。它的优势之一是它可以将原始图像作为输入,并将学习的特征融入到训练过程中,可以有效地学习复杂的映射。因此本文提出了基于CNN人脸图像质量评价方法。

1 相关工作及本文流程

影响人脸图像质量的因素多种多样,主要包括光照、清晰度、姿态、表情、拍照位置、遮挡[1]。在图像质量评价中存在的很大挑战是,图像失真往往是复合型的,并且失真程度是不确定的,虽然已经有很多算法可以用来评价单独某一种失真图像,但对混合型失真类型图像的判断算法更实际,本文对图像模糊和清晰度因素进行了复合评价。目前已有一些有关人脸图像质量评价的研究,尹渺源[6]研究并提出了基于人脸对称性并融合全局光照强度的光照因素NR-IQA,和基于人类视觉系统特性和边缘检测的清晰度因素NR-IQA;这种评价方法确实与主观评价结果有一致性,但由于主观评价与识别并不是完全一致,所以这种方法不能满足在人脸识别意义下的人脸图像质量评估;S. Vignesh等[7]提出了一种基于卷积神经网络(CNN)的模拟给定人脸识别(FR)算法识别能力的人脸质量评价(FQA)算法,通过所提出的方法能选择与FR算法相关的高质量人脸图像,并且该方法可与任何FR算法结合使用;Chen等[8]提出了对人脸图像质量进行学习分级的方法,该方法先将图像分成3种不同的质量类别,然后将不同类别图像所提取的特征作为学习分级的依据,最终利用多项式映射的方法得到人脸图像的质量分数;文献[1]使用自动人脸识别匹配器的比较分数,手动选择了LFW数据库中1680个被试对象,每个至少有两幅人脸图像的最佳质量图像,而其余的7484幅这些对象的图像被用作测试集。在简化假设下,可以将质量分数分配给测试图像,即注册图像的质量至少与测试图像的质量一样好。对于每个人脸匹配器的7484幅测试图像,作为基于分数的目标人脸质量值,用于学习人脸质量预测器。由于特定匹配者和成对质量因素的细微差别(即比较分数是两个人脸图像的函数,但使用分数来标记单个人脸图像的质量),很难预测基于分数的质量。因此,本文将某一范围目标人脸质量值作为一类,即使是对不同的人脸识别算法也有较好的广泛性。

生物特征样本质量是根据自动识别性能来定义的,因此人类对图像质量的视觉感知可能与识别性能没有很好的相关性[9]。但也有研究:发现人类感知和识别之间有一定一致性,并证明了人类质量分级与识别性能相关[1],本文在此研究的基础上采用根据相似性分数(识别相关)计算的质量值和人脸图像质量的人工评估结合的方法对人脸图像进行分类并训练。具体实验流程如图1所示。

图1 实验流程

2 建立数据标签

最大化图像质量与系统性能即匹配算法输出之间的联系是生物图像质量评估的最终目的;图像质量评价算法性能优劣是:在包含不同失真种类及不同失真程度的数据集上观察者的主观评分和算法评分的相关程度[10]。本文建立人脸图像目标质量标签方法同时兼顾了这两个方面,利用人脸识别匹配器相似性分数并结合人类视觉系统清晰度等级的分类方法以及传统亮度分级方法,区别于只利用相似性分数(与人类主观评价不一致)或只利用人类主观评价(与人脸识别准确率不一致)的分类方法,使评价结果在人类主观评价和对人脸识别准确率有重要意义的客观评价有良好的一致性。

以相似分数对人脸图像分类,每类在生物特征样本质量范畴中有对应的存在意义。其中低于阈值1(FAR=1%时的阈值)代表该样本可能产生较差的认证结果,如有可能尽量使用新样本替代它或该样本不能用于认证识别;高于阈值2(FAR=0.1%)低于阈值3(FAR=0.01%),在大多数环境中该样本可能产生好的认证结果,但在需求应用中,有必要包含一个高质量的样本;高于阈值3(FAR=0.01%),在任何环境下,该样本可产生好的认证结果。

本文采用了利用监控设备在实际无约束条件下某火车站认证现场采集的图像数据,而非公开的一些单一失真图像数据集,因为在实际使用场景中,图像失真往往是复合的,并且失真程度不确定,所以本文数据集对用于识别认证的图像研究更有实际意义。人脸质量可能需要区分为3种场景[1]:①确定人脸和非人脸(标记人脸检测失败);②评估人脸对齐的准确性;③给定对齐的人脸图像,现在的质量是什么?本文对第3个方向进行研究,对所有的人脸图像都进行灰度化和人脸对齐归一化,这些数据同样作为人脸识别的训练集,对识别的图像进行质量评价,评价结果作为识别数据的分类辅助,对人脸识别性能而言更准确。由于本文着重研究人脸图像质量中光照和清晰度的影响,所以在确保图像尺寸和分辨率一致的前提下尽可能排除如姿态、遮挡、表情等其它因素的干扰,人类的视觉系统在识别这些因素方面是直接且有效的方式,因此人工对图像数据进行筛选,剔除掉包含这些因素的人脸图像,如图2所示。

图2 姿态、遮挡、表情图像示例

由于人脸图像质量需要在人脸识别性能的背景下进行分类评估,所以需要找出每个对象的人脸标准图片(清晰度高,亮度适宜,姿态正面)(如果存在),标准图片会组成一个类别,用这张标准质量图像与同一个人的不同人脸图像形成正样本,使用匹配器得到识别率。为了排除同一个匹配器在相同FAR时,由于负样本不同导致阈值不同的情况和不同匹配器因负样本不同带来的干扰因素,所以采用的负样本是固定的。

筛选标准图像:首先清晰度因素,根据人类视觉感知与识别之间存在的一致性,人工筛选出3blur类(清晰度高);具体筛选原则为主观评价法绝对性尺度的一种示例——损害尺度见表1。亮度因素,利用传统方法根据灰度值的分布来判断人脸图像中人脸部分的亮度,偏暗(灰度值为小于等于v)的像素个数为m,像素的总数为n,p为较暗像素占比(m/n),v和p的值即判断亮度参数。根据识别率的变化调整v或p选择出2bri(亮度适宜)的图像,筛选出的图像为同一对象的人脸数据组成正样本。通过人脸识别算法进行测试,识别率有明显变化则选择v和p为亮度适宜的阈值。最后将这些图像中为同一个对象的数据,形成正样本去测试,选择FAR在万分之一时阈值(根据不同的识别算法确定阈值,多个识别算法的情况则融合为一个阈值)相似度较高的图像为3blur_2bri类别(标准图片),如图3所示。用类似的方式确定亮度偏暗和亮度偏亮的阈值,不同的是将调整v和p后的图像与标准图像形成正样本,通过识别算法测试得到识别率调整v和p。

表1 清晰度描述

图3 标准图片

将除去标准图像的人脸图像按相似分数分成3类,利用两个人脸识别算法将人脸图像质量按FAR(false accept rate)分别为百分之一、千分之一、万分之一时的阈值将人脸图像分成3类,分别是:低于阈值1(FAR=1%);高于阈值2(FAR=0.1%)低于阈值3(FAR=0.01%);高于阈值3(FAR=0.01%)。并对每类进行人工精细化,利用人类视觉系统的智能性将低于阈值1的类中选出1blur(非常模糊),高于阈值2的类低于阈值3的挑选出2blur(较清晰),高于阈值3的类中挑选出3blur(清晰度高)。这3类识别率很明了,如表2每类左侧值。

最后将上述每一类利用上述确定v和p把亮度分成3类,在选择出1bri(亮度偏亮)和3bri(亮度偏暗)这两类剩下的图像中,选择与1bri类和3bri类有一定亮度差的图像为2bri类(亮度适宜),这类与上述选择标准图片亮度级别一致。因此共将人脸图像分成9类。如图4所示。

为了再确认数据分类的有效性,将这9类数据,用另外一个匹配器(COTS-C)测试识别率,测试结果如表2每类右侧值。

表2 各类识别率

图4 9类图像

3 卷积神经网络架构

本文采用了一种基于卷积神经网络的人脸图像质量评价模型。为了有效地提取图像质量特征,准确评价图像质量,我们首先将图像质量预测问题作为一个分类问题。我们不是试图为预测人脸图像质量的任务而手工提取一组图像特征,而是通过训练卷积神经网络来学习图像质量的判别特征来训练模型,为了减少除了人脸之外的图像部分影响评价,在所有人脸图像均进行了人脸对齐归一化操作的基础上,确保输入尽可能是面部,所以截取图像中心部分作为输入,将全部数据用80/20比例分成训练集和测试集。

3.1 网络结构

本文通过对AlexNet模型进行改进,首先是卷积层,也就是特征提取层,对输入进行滤波,卷积层输出的特征映射作为下面池化层的输入,其中池化过程有助于保留有效信息并且降低特征维数,提高计算效率,在池化层之后,是4个卷积层,再之后是对最后一个卷积层的输出进行最大池化和平均池化,将两个池化层的输出进行连接送入3个全连接层,最后在输出层,采用softmax层对图像进行分类。网络模型如图5所示,具体参数见表3。

图5 网络模型

表3 网络模型的参数配置

3.2 网络微调

本文将AlexNet中ReLU激活函数修改为PReLU(parametric rectified linear unit),两者的区别[11]如图6所示。

图6 ReLU和PReLU区别

具体ReLU与PReLU激活函数如下

反向传播更新ai时,采用的是带动量的更新方式,如下

上式的两个系数分别是动量与学习率。PReLU增加了极少量的参数,PReLU在几乎无额外计算成本的情况下改进了模型拟合,且拟合风险小。本文选取PRelu作为激活函数,训练结果表明是有效的,使准确率提高了4个百分点。

4 实验结果与分析

本文采用了简洁、高效、快速、易用的深度学习框架pytorch, 运行环境是 Ubuntu16.04,在GPU型号为GeForce GTX 1080 Ti/PCIe/SSE2的硬件平台上进行加速,表4展示了模型的部分训练参数。

表4 训练模型的部分参数

在进行超参数调整之后,迭代次数超过20 000,使准确率稳定在90%左右。

图7为训练损失值与迭代次数的关系,图8为测试集准确率变化。

图7 训练损失值变化

图8 测试准确率变化

从图7、图8可以看出,在迭代前5000次,损失值整体下降较快,与之对应准确率也上升较快,在之后损失值和准确率变化缓慢,当迭代次数超过20 000次左右训练损失值和准确率保持稳定。

除了用准确率衡量模型性能之外,同时还参考了召回率(Recall),公式如下

表5展示了每个本文网络结构训练结果每个类别的召回率。

表5 每类召回率及整体召回率

选取了文献[12]中网络结构和AlexNet基本网络结构,对前面数据进行分类,不同算法对测试集详细结果见表6。

表6 不同算法实验结果

该模型整体来说人脸的图像评价较为准确,在给出评价后,对现场环境和采集设备的调整具有重要的实际指导意义。

文献[13]将数据分为了高质量人脸图像和低质量人脸图像进行了二分类训练,但更精确的分类可以更有效定位到人脸图像存在的问题,在实际应用中可根据评价结果给出相应亮度和清晰度调整提示,评价结果为:3blur_2bri(清晰度高/亮度适宜)这类图片可以作为人脸(清晰度/亮度)标准图片存入库中;3blur_1bri(清晰度高/亮度偏亮)这类图片进行亮度调暗至3blur_2bri数据亮度标准;3blur_3bri(清晰度高/亮度偏暗)这类进行亮度调亮至3blur_2bri数据亮度标准后,也可作为标准图片存入库中,作为比对标准;评价结果为模糊因素的,可以根据具体情况调整光圈、配置高清摄像头、调节球机最小聚焦限制的距离、确保摄像机外罩干净等手段以提高清晰度;可以根据评价结果剔除对多数人脸识别算法无效的低质量人脸图像(低于阈值1);或者对这些类人脸图像进行亮度或者清晰度调整,提高相似分数进而提高识别率。

文献[13]利用传统方法将光照、清晰度、姿态3个因素的得分归一化后加权计算总得分,再加上人工精细分类,虽然对人脸图像的评分结果与人类视觉系统具有一致性,但对于人脸识别意义而言并不具有很好的一致性。本文提出的方法在人脸识别方面有很好的一致性。按照文献[1]中的方法,我们使用误差与拒绝(EVR)曲线评估人脸质量度量,该曲线评估了以降低错误率的拒绝低质量样本的效率。EVR曲线绘制了一个使用固定阈值(例如,整体FMR=0.01%),当删除或拒绝部分图像后重新计算错误率(FNMR或FMR)。图9绘制了9类人脸图像的EVR曲线,对两个不同的人脸匹配器(COTS-A、COTS-B)进行了评估,将不带标签的测试集(probe images set)用训练好的模型分类,将分类结果按顺序去除得到匹配器的FNMR,由于匹配器具有不同识别性能,并且数据分类结果相似分数有一定间隔,因此选择了一种通用的初始FNMR分别为0.20、0.50、0.80来进行评价。

图9 去除每类图像后的FNMR

图9表明:模型具有很好的分类效果,在FNMR为0.20时(图9(a)),去除特别模糊(1blur)不同亮度3类图像可以看出,都有效降低了两个匹配器的FNMR,这3类图像可以作为低质量图像拒绝识别或认证来提高准确率;同样在FNMR为0.50和0.80时,对特别模糊(1blur)的去除更有效降低FNMR,FNMR为0.50时(图9(b))可以清晰看出去除中等模糊(2blur)类图像,降低FNMR的程度;FNMR为0.80时(图9(c)),去除特别清晰(3blur),3blur_1bri和3blur_3bri这两类对降低FNMR是有效的,没有影响的;这也验证了,3blur_2bri这类图片属于相对高质量图像,可以在清晰度和亮度两方面作为人脸标准图像。

5 结束语

人脸图像质量评价是一个具有重要实用价值的问题。本文提出了一个对正面人脸图像清晰度和光照强度综合评价方法,根据相似度分数(匹配相关)将某一范围目标人脸质量值,与人脸图像质量的人工评估方法结合对人脸图像进行分类,每一类都有其意义,将评价结果利用不同的人脸识别算法验证,结果表明对不同的识别算法具有较好的广泛性。将此问题转化成为一个分类问题,对数据进行了分类,经过训练,分类准确率达到了一个较好的结果,并对每类的降低FNMR效果进行了验证。针对本类课题的研究,仍然需要加入其它影响因素形成全面综合的评价,这有待于未来进一步研究。

猜你喜欢

清晰度人脸亮度
新入职护士工作价值观、未来工作自我清晰度与心理弹性研究
有特点的人脸
一起学画人脸
远不止DCI色域,轻量级机身中更蕴含强悍的亮度表现 光峰(Appptronics)C800
鲜明细腻,拥有更好的清晰度 Ascendo Immersive Audio CCRM-12 MKII/CCRM-6P/SMS-15
修身的效果,改善声像和定位的清晰度 意大利新一代架皇 BAS AS-S4/AS-B4避震脚钉
嘈杂语噪声下频段增益对汉语语言清晰度的影响
亮度调色多面手
三国漫——人脸解锁
亮度一样吗?