基于Patch 的多标签CSA-DNN 手指静脉质量评估

2020-07-19梁雪慧程云泽张瑞杰

天津理工大学学报 2020年4期

梁雪慧，赵菲，程云泽，张瑞杰

（天津理工大学a.电气电子工程学院；b. 天津市复杂系统控制理论与应用重点实验室，天津300384）

随着互联网的快速发展和对公民和访问控制区域的威胁的增加，识别一个人成为保护隐私和财产的关键.不同于传统的识别手段，如密钥和密码，生物识别难以窃取或复制，不能丢失.因此，生物特征认证已被广泛研究并成功应用于个人识别.生物识别方法可以通过外在的，例如指纹[1]，面部[2]，虹膜[3]，签名[4]，或内在的，例如手指静脉，手静脉和手掌静脉.外在形式在传感器级别容易受到欺骗攻击.与外在形态不同，内在形式不在人体皮肤表面，这使得它们很难被盗取和伪造，因此更加安全. 在固有方式中，指静脉生物测定学在实际应用中是最方便的.

手指静脉验证仍然具有挑战性，图像采集会受到用户行为[5]，环境光[6]，环境温度[7]等因素影响.如果这些因素得不到很好的控制，则必须在验证系统中处理许多低质量的手指静脉图像.这些低质量图像最终会影响身份验证性能.为了克服这个问题，研究人员提出了几种方案，如，图像增强[8]，图像恢复[9]和质量评估[10-11].图像质量评估已被广泛研究并应用于生物识别验证.在生物识别系统中，测量图像质量有很多作用：1）监测和报告生物识别系统中的图像质量；2）在访问交易期间控制模板登记和/或样本获取的质量；3）根据估计的质量调整识别系统中的步骤；4）优化和改进降低验证错误率的方法.这显示了评估采集的手指静脉图像的质量的重要性.

根据建立指静脉图像质量评估模型的不同目的，现有的指静脉图像质量评估方法可以大致分为三类：1）基于几个人工设计的质量特征参数融合的质量评估方法[12]；2）基于静脉模式检测的静脉点数质量评估方法[13]；3）基于深度学习特征表示的质量评估方法[14].第三种方法使用卷积神经网络来评估指静脉图像的质量，该方法属于深度学习领域是近年来研究的热点.

目前深度学习的相关工作都是针对于两类或者多类任务，但是由于一张低质量图像往往包含2 种以上的标签，因此对低质量图像通过配准后再识别来提高系统识别率的任务就需要对低质量图像进行多标签分类，得到对应的标签类别后，用对应的配准方法得到高质量图像.

1 多标签深度网络

深度学习已被应用于静脉生物识别技术的质量评估，但是之前的评估都是基于二分类的方法，即分为低质量和高质量图像，由于造成图像低质量的因素很多，因此低质量图像不能单独被一个标签完全描述，同时低质量图像可能是含有两种以上的标签，所以我们的方法引入了多标签分类，通过多标签的形式让低质量图像得到全面的信息为提升身份识别系统性能提供支持. 包括提出CSA-DNN 多标签网络、训练该网络，验证该网络.

图1 本文网络结构Fig.1 Network structure

1.1 CSA-DNN 结构

最近，已经在计算机视觉任务中研究了各种DNN，其结构主要由卷积层，池化层和全连接层组成.同时结合了数据预处理技术，如ReLU，批量归一化，以进一步提高性能. 目前，一些DNN 在不同领域进行了探究.网络架构通常由相关问题或实验的先验知识决定.对于表征质量评估问题的指静脉图像特征学习，提出了基于CSA（通道空间注意力）DNN 模型，同时为了实现多标签的目的对图像进行分块提取特征最终得到低质量图像丰富的标签信息.在结构上，我们的DNN 由3 个卷积层组成，用于提取特征，然后是2 个CSA，1 个最大池化层，2 个完全连接的层和Softmax 输出层.图1 描绘了用于整个指静脉图像评估的DNN 架构.输入是大小为80*240 的图像块数据，这种基于CSA 的DNN 由三个卷积层和两个完全连接的层组成. 第一个卷积层中有95 个内核，第二个卷积层中有5 个内核，第三个卷积层中有3 个内核，第一个完全连接层中有1000 个内核，第二个完全连接层中有500 个内核，第二个卷积层中有500 个内核连通层.输出的维度根据要预测的类的数量来确定.当输入大小更改时，每个图层中的地图宽度和高度会相应更改.

1.2 基于通道空间注意力（CSA）的特征表示

同一类别的静脉在图像中会显示出相似的形状，因为它们具有微小的特征，因此，有必要对通道进行加权，以使最具代表性的功能得以增强. 其次，由于对特征图的学习不充分会产生潜在的错误风险，这是因为卷积操作具有有限感受野的缺陷.因此，通过应用全局空间注意来过滤特征图，可以获得更高的检测性能.针对存在的这两个问题，引入通道空间注意力模块[15]，用于对来自每个CNN 块输出的通道和空间信息进行加权，以增强特征图的表示能力.

图2 显示了CSA 模块的直观框架，该框架由两部分组成.在通道注意力模块（图2 上半部分）中，由CNN 块提取的具有W×H×C 形状的3D 特征映射被输入到额外的全局池层，该层从每个通道中的完整特征映射获取平均池.生成低维（1D）特征向量，其中平均值表示每个通道的全局特征.然后，应用一组具有非线性激活ReLU 的卷积层.该1D 特征向量通过采用Sigmoid 函数映射到（0，1）区域，形状为1×1×C 的输出是所谓的通道关注因子.因此，该模块的输出是原始输入3D 特征映射和1D 信道关注因子的广播元素乘积.以这种方式，输入的3D 特征图在通道级别被激活.

图2 的下半部分是空间注意模块，其操作与通道注意力模块类似.在这一部分中，输入的3D 特征图（W×H×C）被馈送到具有1×1 内核和仅1 个滤波器的另一个卷积层以实现全局卷积.输出是具有W×H×1 形状的2D 特征图，因此每个值可以是空间水平的全局特征.为了提取全局空间信息，我们采用具有大内核大小的额外卷积运算并将特征映射缩小为W /2×H/2×1 形状. 接下来，应用相应的去卷积运算以生成空间关注因子（W×H×1），并且将输入的3D特征图乘以每个空间位置中的空间关注因子，从而在空间水平上激活特征图. 最后，CSA的输出是两个激活的特征映射的总和.

图2 通道空间注意力模块Fig.2 Channel-Spatial attention module

2 实验

在本文实验中使用了两个公开的静脉数据集FV-USM 和MMCBNU_6000，将本文所提出的质量评估算法在具有不同捕获系统数据库上进行评估，数据集的具体参数如表1 中所列.

表1 不同静脉数据库的参数Tab.1 Parameters of different vein databases

2.1 数据集预处理

图3 为图像预处理流程.图3（a）为原始采集图像，将采集的手指静脉图像二值化（图3（b）），使用Sobel 边缘检测器检测其边缘（图3（c）），从二值化图像中减去得到的边缘图.采用二进制掩模图像（图3（d），其中白色区域中的像素值为1，后区域中的像素值为0）用于从背景中分割手指ROI.设B 和I 分别为原始灰度图像和二值掩模图像.由于B 中的白色区域和黑色区域像素是1 和0，因此手指ROI 图像D 由I×B 计算.为了实现鲁棒匹配，ROI 图像进一步经历对准归一化，使得ROI 主轴变为水平的（图3（e））根据二值化掩模B 的取向估计手指ROI 图像的取向，使用掩模B 的估计取向将ROI 区域的取向归一化为水平取向.最后，将2 个数据集中的所有指静脉图像的尺寸归一化为80*240.

2.2 生成训练集

在实际验证系统中，低质量图像不容易采集，采集到的绝大部分是高质量图像，因此造成训练集中的低质量图像与高质量图像数量不均衡，该现象会使得训练很快出现收敛，因为在训练的时候只有高质量图像起到了训练参数调节的作用，为了解决这个问题，首先，从训练集中选取高质量图像.接着，通过改变这些图像中的亮度，噪声，平移和旋转来添加变化，以便它们不再匹配验证系统中的相应模板.此外，使用随机合成少数过采样技术（R-SMOTE）[16]生成低质量图像. 为了创建低质量图像x的合成样本，通过

产生临时样本yl.其中x1和x2为随机选择的两个低质量图像，L为上采样倍率，rand（0，1）为区间（0，1）的一个随机数.然后，基于临时样本，使用

构造新的小类样本pl.用于训练的低质量图像集以这种方式扩展到一组新的图像.最终在A，B 两个数据集中随机选取高低质量图像扩充为6 000 张图像，其中各有3 000 张高质量图像，3 000 张低质量图像.

在本论文中一共有旋转，光照，噪声3 类低质量因素，每张照片可能包含2 种或者2 种以上的标签类别，可能是暗—旋转—噪声，暗—正常—噪声，暗—旋转—正常，亮—旋转—噪声，亮—正常—噪声，亮—旋转—正常等.

图3 图像预处理Fig.3 Image preprocessing

2.3 网络超参数与训练

2.3.1 网络训练

根据实验的硬件环境，CPU：I7 56 核心，双CPU，GPU：GTX 1080TI，可知GPU 具有较大的容量因此选择minibatchsize 为128，动量因子0.95，降采样率0.4，学习率设置为5*10e-5，同时使用两个数据集中各80%进行训练，10%测试，10%验证.

2.3.2 多标签预测

将训练好的CSA-DNN 模型用于低质量图像的多标签预测，如图4（a）是一张低质量图像通过与标准高质量图像4（b）对比可知存在光照，噪声，以及旋转角度上的低质量因素，对图4（a）进行本文网络预测结果如图5 所示.

图4 多标签预测图像Fig.4 Multi-label prediction image

一张低质量图像通过本文网络预测后的结果如图5 所示.

图5 多标签预测结果Fig.5 Multi-label prediction results

由图5 可知该图像在光照过亮，噪声，旋转这3个标签上具有较大概率，因此预测的标签结果为光照亮—噪声—旋转.

2.3.3 低质量图像配准

经基于CSA-DNN 的多标签预测后根据标签结构，利用对应的配准滤波算法进行处理，将低质量图像转变为高质量图像增加图像利用率.

在图像配准方面采用刚性与非刚性的配准算法B 样条配准算法，该过程通过与一张标准的高质量图像进行对比，找到图像之间相互关联的特征，利用B 样条函数建立这些对应的特征点之间的映射关系，然后根据映射关系确定变换参数从而实现配准，该配准方法主要实现对图像的亮度与仿射变换矫正.

在图像滤波上，由于设备的影响导致图像中可能含有高斯噪声或者乘性噪声等，由于无法确定噪声类型因此本文拟采用融合滤波器的方式进行滤波，该融合滤波器包含了高斯滤波，中值滤波，各向异性滤波，自适应滤波4 种滤波方法，通过对4 种滤波方法得到的滤波图像进行加权融合输出最终的融合滤波结果. 图6 所示为不同滤波方法的峰值信噪比.

图6 不同滤波方法的PSNRFig.6 PSNR of different filtering methods

2.4 实验验证

为验证本文提出的基于Patch 的多标签CSADNN 评估方法的优越性，将本文算法与文献[12]使用的传统人工特征的评估方法、文献[14]使用的卷积神经网络对二值图进行评估的方法和本文未加入通道空间注意力模块的基于CNN 的多标签评估方法进行对比分析.4 种方法针对FV-USM 数据集的评估结果见表2. 针对MMCBNU_6000 数据集的评估结果见表3.

由表2 和3 可知，本文提出的算法在测试集和验证集上的性能表现均优于其他三类算法.

为了分析上述评估算法对身份验证系统的最终识别率的影响程度，本文分别用这些评估算法对身份验证识别进行评估，采用gobar 提取纹理特征，用P-SVM 分类器进行识别. 基于Patch 的多标签CSA-DNN 算法对低质量图像进行配准后得到高质量图像再进行识别，以提高图像利用率.图像利用率计算如下：