结合鲁棒PCA特征与随机森林的表情识别方法

2018-03-16欧中亚山田宏尚

计算机工程与设计 2018年2期

欧中亚，山田宏尚

(1.河南经贸职业学院信息管理系，河南郑州 450046；2.日本岐阜大学工学研究科机械系统，岐阜名古屋 5011193)

0 引言

人脸表情识别[1]的核心是提取人脸的表情特征，目前常用的人脸表情特征有3类，分别是几何特征、运动特征和统计特征[2-4]。几何特征主要是对人脸的眼睛、眉毛、嘴巴等局部部位的几何位置和形状进行定量描述，来区分不同的表情。然而，几何特征受光照、图像质量、饰物等干扰较大，稳健性不强[5]。运动特征是将连续的人脸表情变化作为研究对象，采用如光流法等运动分析方法来测量表情的变化，区分不同的表情。然而，此类方法需要的信息量大，且计算量也很大[6]。统计特征通常是对图像空间进行变换(如主成分分析(principal components analysis，PCA))，将降维后的向量作为特征向量来进行表情识别。由于不需要设计具体的特征描述子，相对而言比较简便，但也受光照等影响[7]。

本文提出一种结合鲁棒PCA特征和随机森林学习方法的人脸表情识别方法，其创新点有两个：一是提出一种鲁棒的PCA特征提取方法，融合欧氏距离和明氏距离两种距离计算方法来求取样本均值，并采用梯度下降算法来迭代寻找最优的样本中心和投影矩阵，提高特征对不同样本的鲁棒性。二是提出一种改进的Gamma校正方法，可以在改变图像灰度动态分布范围的同时尽可能保证图像的整体亮度分布不变。

1 本文方法

本文提出的结合鲁棒PCA特征和随机森林的表情识别方法主要包括图像预处理、表情特征提取和表情特征的训练与分类3个部分，详细介绍如下。

1.1 图像预处理

在进行表情识别之前，首先要定位图像中人脸的位置，并进行人脸对齐处理，然后再采用尺度归一化、光照归一化等处理，得到规则的人脸区域图像。在此基础上再进行表情特征的提取和分类。由于许多公开的人脸表情数据集都已事先进行了人脸的定位、对齐和尺度归一化等处理，数据集中的图像已经是规则的人脸区域图像，如本文实验所选用的JAFFE人脸表情数据集。故本文不再赘述人脸的定位、对齐等处理方法，这部分内容可参考文献[8]。

这里，我们需要进行的图像预处理操作主要是光照归一化操作，因为现有的人脸表情数据集基本上都没有进行光照归一化处理。光照归一化的方法有很多，如直方图均衡法、直方图规定化、Gamma校正法等，本文针对JAFFE数据集的图像采集光源分布状况，采用一种改进的Gamma校正方法进行光照归一化处理，目标是在保证图像整体亮度基本不变的情况下增强低亮度值区域的灰度动态范围，降低高亮度值区域的灰度动态范围，可以用公式表示为

需要说明的是，本文仅对图像的亮度信息进行处理，不需要图像的颜色信息。

1.2 鲁棒PCA特征提取

特征提取是表情识别技术的研究重点，常用的有人脸表情特征有PCA、局部二元模式(localbinarypatterns，LBP)、方向梯度直方图(histogramoforientedgradients，HOG)等，这些特征在人脸表情识别方面的性能差异将在实验部分进行对比分析。

本文在进行人脸表情特征提取时，针对传统的PCA特征所存在的个别样本偏离问题，提出一种结合欧氏距离和明氏距离改进的样本中心自适应求取方法，在此基础上提取鲁棒的PCA特征，降低表情识别时的错误率。详细过程描述如下。

假定图像的宽度和高度分别为W和H，我们按照从左到右、从上到下的顺序扫描图像中每一个像素点的亮度值，将图像表示为一个n维的向量xi，其中，i=1,2,…,N表示样本集合中图像对应的序号。

对于向量xi而言，其维度n=IMG_W×IMG_H。在后续本文实验所用的数据集中，图像的宽度IMG_W和高度IMG_H都为256，此时n=256×256=65536。很明显，向量xi的维度n非常大，不易进行数据处理。

主成分分析是一种低失真的降维方法，采用一个正交投影矩阵W∈n×m(其中m≪n)，将高维的n维向量xi降维到低维的m维向量yi，表示为

yi=WTxi

(2)

假定样本图像集中的N个图像样本的均值为0，主成分分析的目标是寻找一个正交投影矩阵，使得在降维空间上投影后的样本向量集合拥有最大的方差，表示为

(3)

其中，tr(·)表示求矩阵的迹，矩阵S表示向量的协方差矩阵，定义为

(4)

实际计算时，常从投影误差最小的角度来寻找最优的正交投影矩阵。通常，投影误差可以表示为

(5)

上述优化问题可以通过求解协方差矩阵S的m个最大的特征值所对应的m个特征向量来计算。

然而，实际上N个图像样本的均值一般不为0，此时常用的策略是计算所有样本向量的均值向量xm

(6)

然后将每一个样本向量都减去均值向量，再进行主成分分析。此时，协方差矩阵S变为

(7)

从最小均方差的角度来看，传统的样本均值可以看作是样本的中心，表示为

(8)

然而，采用欧氏距离存在一个问题，就是经常存在一些样本远离样本中心，这样就与主成分分析的假设条件偏差较大，不利于进行主成分分析。

为此，本文对样本中心的计算方法进行改进，结合欧氏距离和明氏距离自适应求取样本中心，表示为

(9)

(10)

(11)

式(11)可采用梯度下降方法求解，本文提出一种快速的梯度下降算法。具体描述如下：

首先，采用如下所示的近似分解

(12)

其中

(13)

(14)

这一迭代过程可以用表1所示的伪代码描述。

表1 样本均值求取过程伪代码

其中

(15)

参数ε和τ用于控制迭代的终止条件，当前后两次迭代的样本与中心距离差异▽x(t,t-1)不大于ε或者迭代次数t到达最大迭代次数τ时，终止迭代，将此轮迭代得到的样本均值作为最优的样本均值。

(16)

其中

(17)

与式(12)类似，有

(18)

其中，W(t)表示第t次迭代之后的正交投影矩阵。

于是有

(19)

其中

(20)

算法的伪代码见表2。

表2 鲁棒PCA特征提取过程伪代码

其中

(21)

参数ξ和τ用于控制此处迭代的终止条件，当前后两次迭代的投影误差差异▽W(t,t-1)不大于ξ或者迭代次数t到达最大迭代次数τ时，终止迭代，将此轮迭代得到的投影矩阵作为最优的投影矩阵W*。

得到投影矩阵之后，即可对当前已经过预处理操作的图像向量x进行投影变换，计算其鲁棒的PCA特征y，可以表示为

(22)

1.3 特征分类

对于上一小节提取得到的鲁棒PCA特征，我们需要训练一个分类器，用于区分不同表情的鲁棒PCA特征。目前，特征分类方法也很多，如Adaboost、支持向量机(supportvectormachine，SVM)、决策树、随机森林、神经网络等，这些分类方法各有优劣，对不同的应用场合的性能也不同。本文针对人脸表情识别的实验情况选用随机森林作为人脸表情特征的分类器，对特征进行训练和验证。随机森林方法的训练和验证步骤可参考文献[9]，这里不再赘述。

2 仿真实验与分析

2.1 实验数据集

人脸表情识别领域目前已有公开的数据集，本文选用的实验数据集就是表情识别领域常用的JAFFE人脸表情图像集。该数据集包括213幅人脸图像，这些人脸图像已经经过尺寸归一化和人脸对齐处理，图像尺寸都为256×256，且均为正面人脸，人眼的位置也大致对齐，光照也仅有正面光照。该数据集采集的是10个人的表情图像，包括高兴、悲伤、愤怒、惊奇、厌恶、恐惧和中性共7种表情。

本文的实验都是在该数据集下进行的，其中，每一类表情选择不同个体的各1幅图像进行训练，也即，训练图像集中样本数量N=10×7=70。数据集中的其余图像用于测试。

2.2 参数选取

图1 参数p与的关系曲线

图2 参数m与E的关系曲线

由图2可见，当m大于90之后，投影误差E随参数m增大而下降的幅度已经很小了。因此，本文取参数m=90。

总的来讲，本文所用的参数的取值见表3。

表3 参数取值

表3中，Ntree是指随机森林方法中决策树的数量。

2.3 表情识别结果与分析

下面对测试数据集进行表情识别实验，考虑到本文的主要创新是提出一种鲁棒的PCA特征提取方法，因此在表情识别仿真实验中首先对比不同特征提取方法对表情识别结果的影响，然后再对比本文方法与表情识别领域近5年的方法的性能差异。本文以表情识别率为评价指标，定义为

(23)

首先，我们选取传统PCA(降维维数也设为90)、LBP和HOG这3种常用的特征，与本文的鲁棒PCA特征进行对比实验，其中，图像预处理和特征分类部分都采用本文所述方法，实验结果如图3所示。

图3 不同特征的表情识别率对比

由图3可见，本文所述的鲁棒PCA特征的表情识别率明显高于其它3种特征。尤其是与传统的PCA特征相比，本文通过改变样本均值的计算方式，以及通过自适应迭代求取最优的样本均值和投影均值，降低了投影误差以及样本集合中的奇异点，从而提高了表情识别率。

其次，我们选取文献[10-12]所述的3种表情识别方法，与本文所述的表情识别方法进行对比实验，实验结果如图4所示。

图4 不同方法的表情识别率对比

由图4可见，本文所述方法的表情识别率高于其它3种表情识别方法。

表4给出了4种表情识别方法的平均处理时间。这里，平均处理时间是指平均对一幅图像进行表情识别所需要的时间，实验所用的计算机平台为：3.2 GHz四核CPU、16 G RAM、Windows 7操作系统、Visual Studio 2013软件平台、OpenCV 3.0.0图像处理库。

表4 不同方法的平均处理时间对比

由表4可见，本文方法所需的平均处理时间少，这说明本文方法的运算效率也高于其它3种方法。因此，综合评价，本文方法是一种高效、可靠的表情识别方法。

3 结束语

本文提出了一种结合鲁棒PCA特征和随机森林学习方法的人脸表情识别方法，首先提出一种改进的Gamma校正方法，可以在校正图像的灰度动态范围分布时避免大幅改变图像的整体亮度分布；然后提出一种鲁棒的PCA特征提取方法，先是通过融合欧氏距离和明氏距离两种距离计算方法来计算样本均值，降低样本与中心的平均距离，接着采用梯度下降算法迭代寻找最优的样本中心和投影矩阵，提高PCA特征对不同样本的鲁棒性；最后采用随机森林学习方法对鲁棒PCA特征进行训练和分类，提高表情识别的识别率。人脸表情识别的仿真实验结果表明，本文所述的表情识别方法是一种高效、可靠的表情识别方法，其鲁棒PCA特征优于传统的PCA特征以及LBP和HOG特征。

[1]HU Bufa,WANG Jinwei.A method of 3D facial expression recognition with dual mode and semantic knowledge[J].Journal of Instrumental and Instrument,2013,34(4):873-880(in Chinese).[胡步发,王金伟.双模态及语义知识的三维人脸表情识别方法[J].仪器仪表学报,2013,34(4):873-880.]

[2]Gu W,Xiang C,Venkatesh Y V,et al.Facial expression recognition using radial encoding of local Gabor features and classifier synthesis[J].Pattern Recognition,2012,45(1):80-91.

[3]LIU Shuaishi,TIAN Yantao,WANG Xinzhu.Automatic re-cognition of facial expression recognition based on the symmetric bilinear model[J].Journal of Automation,2012,38(12):1933-1940(in Chinese).[刘帅师,田彦涛,王新竹.基于对称双线性模型的光照鲁棒性人脸表情识别[J].自动化学报,2012,38(12):1933-1940.]

[4]Rudovic O,Pantic M,Patras I Y.Coupled Gaussian processes for pose-invariant facial expression recognition[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2013,35(6):1357-1369.

[5]YI Jizheng,MAO Xia,Ishizuka,et al.Facial expression re-cognition based on feature point vector an texture deformation energy parameters[J].Journal of Electronics and Information,2013,35(10):2403-2410(in Chinese).[易积政,毛峡,Ishizuka,等.基于特征点矢量与纹理形变能量参数融合的人脸表情识别[J].电子与信息学报,2013,35(10):2403-2410.]

[6]Sandbach G,Zafeiriou S,Pantic M,et al.Static and dynamic 3D facial expression recognition:A comprehensive survey[J].Image & Vision Computing,2012,30(10):683-697.

[7]Luo L,Wu Caiming,Zhang Y.Facial expression feature extraction using hybrid PCA and LBP[J].Journal of China Universities of Posts & Telecommunications,2013,20(2):120-124.

[8]Zhu X,Ramanan D.Face detection,pose estimation,and landmark localization in the wild[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2012:2879-2886.

[9]Vens C.Random forest[J].Encyclopedia of Systems Biology,2013,45(1):157-175.

[10]Gu W,Xiang C,Venkatesh Y V,et al.Facial expression reco-gnition using radial encoding of local Gabor features and classifier synthesis[J].Pattern Recognition,2012,45(1):80-91.

[11]Wang Z,Xiao N.Using MD-adaboost to enhance classifier of facial expression recognition[J].Journal of Computational Information Systems,2013,9(3):923-932.

[12]Da S,Maximiano F A,Pedrini H,et al.Effects of cultural characteristics on building an emotion classifier through facial expression analysis[J].Journal of Electronic Imaging,2015,24(2):77-84.