APP下载

基于GMRF和KNN算法的人脸表情识别

2020-10-15张立志王冬雪陈永超孙华东韩小为

计算机应用与软件 2020年10期
关键词:马尔可夫分块识别率

张立志 王冬雪 陈永超 孙华东 韩小为

(哈尔滨商业大学计算机与信息工程学院 黑龙江 哈尔滨 150028) (黑龙江省电子商务与信息处理重点实验室 黑龙江 哈尔滨 150028)

0 引 言

随着计算机视觉技术、模式识别的发展,表情识别成为了当下的一个研究热点[1]。表情在人类日常沟通中占有重要地位,它不仅可以进行情绪的表达,还可以进行情感信息的交流。表情识别技术在人机交互、驾驶员驾驶状态研究和医学陪护领域都有着广泛的研究前景[2-3]。

人脸面部表情识别过程一般包括前期图像预处理、图像特征提取和图像分类识别等部分。图像预处理主要是人脸的检测,去除人脸部分之外其他的干扰因素;图像特征提取是从预处理后的图像中提取反映人脸表情的特征信息;图像分类识别则是将提取到的表情特征信息输入分类器中进行训练和测试,实现人脸表情的识别。

人脸面部表情识别的过程中,最重要的是特征信息的提取,提取特征的方法有很多,现阶段表情特征提取的主要方法有:局部二值模式(LBP)[4]、主成分分析法(PCA)[5]、Gabor小波变换[6]等,其中局部二值模式(LBP)是现阶段最为流行的方法之一。LBP算子具有旋转不变性和灰度不变性等显著优点,但LBP算子只考虑邻域像素灰度值和中心像素之间的大小关系,因此灰度变化会使LBP算子受到影响,使识别率降低[7]。主成分分析法在分析图像整体性特征时有优势,但是在分析表情图像局部的差异时效果较差。Gabor小波提取的是多尺度多方向信息,故产生的特征向量信息的维度较高,不利于算法的实时处理[8]。

本文提出一种基于高斯马尔可夫随机场Guassian Markov Random Field(GMRF)的多种分块特征结合的表情识别方法。现阶段高斯马尔可夫随机场模型在图像处理领域中具有非常广泛的应用,能够很好地表达图像的纹理信息且具有良好的空间相关性。本文采用高斯马尔可夫随机场多分块特征结合的特征提取方法,使用K近邻算法K-Nearest Neighbor(KNN)[9]方法进行表情识别分类,在JAFFE数据集上的识别结果表明该方法在表情识别上的有效性。

1 表情图像预处理

预处理过程是对人脸表情图像进行图像分割,提取实验所需的感兴趣区域(ROI)部分,对提取后的图像进行分块处理。本文采取Snake模型[10]进行人脸图像分割,其基本原理是预先确定待分割图像的初始轮廓曲线,在外部力和内部力的共同作用下,使得初始轮廓曲线逐渐接近感兴趣区域图像的边缘,从而完成图像分割[11]。

1.1 纯人脸区域分割

将人脸表情图片的人脸部分从图像中裁剪出来,去掉图像中人的头发、衣服和图像背景等部分,防止在提取反映表情的纹理特征信息时造成干扰。依据人脸的形状和位置,标注人脸的大致形状边缘,采用Snake模型提取纯人脸区域。如图1所示,第一层是原始的数据集表情图像,第二层是经过纯人脸区域分割的图像。

图1 图像纯人脸区域分割

1.2 图像分块

经过纯人脸区域分割后,根据特征的提取要求将人脸区域图像进行多种方式的均匀分块,不同分块方式得到的子块数量不同。本文根据数据集图像的实际大小,将每幅表情图像分别进行了9、16、25、36、49、64子块的划分。

2 特征提取

2.1 高斯马尔可夫随机场模型

高斯马尔可夫随机场模型是马尔可夫随机场的两个分支之一,即假设激励噪声的分布方式为高斯分布,这样可以得到一个差分方程且该方程由空域像素灰度来表示,该模型称为高斯马尔可夫随机场模型[12]。在实际应用中,相对于马尔可夫随机场和吉布斯分布模型,高斯马尔可夫随机场模型具有计算量小的优点,因此得到了广泛的运用[13]。本文基于表情识别技术的实时性选择提取图像的高斯马尔可夫随机场特征进行人脸表情图像的分类识别。

高斯马尔可夫随机场模型是一个平稳自回归过程,其协方差矩阵正定、邻域系统对称、对称邻域点的参数相等[14]。用高斯马尔可夫随机场特征来表达图像的纹理特征时,可以用条件概率来表示:

P(y(s)|all:y(s+r)r

(1)

式中:Nei表示以s为中心,r为半径的对称邻域(对称邻域不包括中心点s)。式(1)表示图像中任意一像素点s的灰度y(s)是s所有方向的邻域点灰度的函数。高斯马尔可夫随机场模型邻域关系由高斯马尔可夫随机场模型结构图表示,如图3所示。

图3 高斯马尔可夫随机场结构图

设S为M×M网络上的点集,S={(i,j),1≤i,j≤M},给定的纹理[y(s),s∈S,S={(i,j),1≤i,j≤M}]是零均值的高斯随机过程,则GMRF模型可以用一个包含多个未知参数的线性方程来表示[15-16]。

(2)

式中:NS表示点S的GMRF邻域;θr表示系数;e(s)为高斯噪声序列且均值为零。因为像素点邻域对称,θr=θ-r,可将式(2)写成:

(3)

式中:y1(s+r)为封闭环形区域S中的点。将式(3)应用于区域S中的每一点,则可得到M2个关于{e(s)}和{y(s)}的方程:

(4)

用矩阵的形式表示所有由y1(s+r)所构成的方程组,可以写成:

y=QTθ+e

(5)

式(5)为高斯马尔可夫随机场的线性模型,QT为关于全部y1(s+r)的矩阵,θ为模型的待估计特征向量。用最小平方误差准则,可获得:

(6)

线性自回归的GMRF模型中,当阶数比较低时,虽然分析计算方便,但描述复杂图像特征时,具有一定的局限性。随着阶数增加,计算量虽然变大,但能够描述图像的丰富纹理信息。选取最佳的阶数, 能有效地反映图像的纹理特征。本文选用了高斯马尔可夫随机场的二阶、四阶、五阶模型,进行人脸表情识别。

2.2 人脸表情图像的特征提取

表情识别技术的难度就在于对人脸面部表情细节特征的提取,所以对表情细节特征的提取是表情识别的关键[17-18]。高斯马尔可夫随机场特征很好地描述了图像局部的纹理信息及其图像的空间位置关系,能够反映图像的细节信息。高斯马尔可夫随机场有多个阶数的参数特征,为保证实验的合理性以及更好地提高人脸表情识别的准确率,实验中针对每幅人脸表情图片分别提取二阶、四阶和五阶高斯马尔可夫随机场特征。为了进一步提取图像的细节信息,将图片以多种分块方式分为多个子块,针对每个子块进行高斯马尔可夫随机场特征的提取。不同分块方式、不同子块可以提取到不同的细节特征信息,多分块方式有利于人脸表情图像特征信息的完整性,以及特征提取后的表情识别分类。

首先将图片分为6种分块方式,如图2所示。分别分成9、16、25、36、49、64个互不重叠的子块。记子块个数为bi(i=1,2,…,6),b1=9,b2=16,b3=25,b4=36,b5=49,b6=64。然后分别提取每个子块二阶、四阶、五阶的高斯马尔可夫随机场特征,记阶数为o,o=2,4,5,以上分块方式的GMRF特征记为:

图2 纯人脸图像分割子块

(7)

式中:N为特征向量维度。

本文通过实验探讨分块方式及GMRF阶数选取的特征差距,结果表明:同种分块方式的不同表情的特征数据之间特征数值分布差异较大;特征数值不同,各种特征数值数量也不同,表明提取的GMRF特征类间差距大;不同分块方式得到的GMRF特征不相同,子块数量越多,特征数据量越大,表情的细节特征信息越丰富,类间差距越大。不同分块方式的表情图像GMRF特征柱状图如图4所示,其中:(a)为9分块二阶GMRF特征提取方式得到的不同表情的特征数值分布图;(b)为25分块二阶GMRF特征提取方式得到的不同表情的特征数值分布图;(c)为49分块二阶GMRF特征提取方式得到的不同表情的特征数值分布图。因此GMRF特征用于人脸表情分类较理想。

(a)9分块二阶GMRF θb1,2特征数据分布图

为了获取人脸表情图像更多的细节信息,可以将不同分块方式得到的特征进行结合,不同分块方式提取到的特征信息不同,采用分块方式组合的方式可以使人脸表情信息更加有效。实验结果表明,不同分块方式的结合可以进一步提高特征提取效果,将不同分块方式提取到的各个阶数高斯马尔可夫随机场特征进行结合,形成一个空域增强的人脸表情特征向量,其特征向量为:

θBi,o=θ[b1,b2,…,bi],oi=2,3,…,6

(8)

式中:Bi表示前i种分块方式的结合。分块方式结合的实验获得的特征柱状图如图5所示,其中:(a)为9、16分块结合的二阶GMRF特征提取方式,即θB2,2得到的不同表情的特征数值分布图;(b)为9、16和25分块结合的二阶GMRF特征提取方式,即θB3,2得到的不同表情的特征数值分布图;(c)为9、16、25和49分块结合的二阶GMRF特征提取方式,即θB4,2得到的不同表情的特征数值分布图。对比单分块方式的特征数据分布图可以看出,得到的特征数据特征值更多,不同特征值数据的数量更加多样化,表明得到了更多的人脸表情细节信息,因此组合方式相对于单一分块方式的类间差异更大。

(a)9、16分块结合二阶GMRF θB2,2特征数据分布图

本文针对人脸表情图像的高斯马尔可夫随机场特征提取过程如图6所示。

图6 GMRF特征提取过程

3 分类识别

人脸表情的高斯马尔可夫随机场特征提取后,要实现对人脸表情进行分类识别,还需要选定并设计表情分类器。本文采用基于K近邻算法(KNN)方法来实现,该方法是一种典型的非参数分类算法,是图像处理应用中有效的模式识别算法[20]。

KNN算法的主要思想就是已知训练集中的数据和标签,输入测试数据,然后比较测试数据的特征和训练集中对应的特征,找到训练集中与之最相近的前K个数据,那么K个数据中出现次数最多的那个分类就是该测试数据所属的类别,KNN算法的基本流程如下[20]:

(1)计算欧氏距离。计算测试集中的69个表情数据分别与训练集中的144个表情数据的欧氏距离。

(2)距离的排序。将欧式距离按照从大到小的顺序排列。

(3)选取K值。根据步骤(2)的结果选取距离最近的K个点。

(4)分类判别。查找出K个近邻的类别,根据投票的方式决定待分类样本的类别。

假设待测试样本为ξ=(ξ1,ξ2,…,ξn),训练集中样本为η=(η1,η2,…,ηn),则待测样本与每个训练样本之间的欧式距离定义为:

(9)

式中:ξk、ηk为待测样本和训练样本的特征属性;n为样本特征属性的个数。在实验中,采用MATLAB学习库中KNN模型算法,分别采取不同的K值进行多次实验。实验结果表明,当K=1时,测试集的识别率最高。

4 实验结果与分析

实验采用了国际上公开的人脸表情数据集JAFFE进行了人脸表情识别分类实验。JAFFE人脸表情数据集共有213幅人脸表情图像,由十位日本女性组成,每位女性都包含生气(anger)、厌恶(disgust)、恐惧(fear)、高兴(happy)、中性(neutral)、悲伤(sad)、惊讶(surprise)七种表情。其中每人每种表情都有2到4幅图像,JAFFE数据集图像大小为256×256像素。从JAFFE人脸表情数据集中选取144幅图片用来训练,69幅图片用来进行实验测试,训练数据和测试数据的数量比值为2∶1,符合实验的正常测试比例。为了确保实验的合理性和准确性,用来训练的144幅图片和用来测试的69幅图片中,都包含每位女性的每种表情。

本实验中,二阶、四阶、五阶高斯马尔可夫随机场模型提取的特征维数不同,分别为四维、十维、十二维。因此图像在不同分块方式、不同阶数高斯马尔可夫随机场特征下提取到的特征向量维数不同。例如图像分为9个子块提取二阶高斯马尔可夫随机场特征得到的特征向量为36维;图像分为16个子块提取四阶高斯马尔可夫随机场特征得到的特征向量为160维;图像分为25个子块提取二阶高斯马尔可夫随机场特征得到的特征向量为300维。

表1表示在不同分块方式下JAFFE人脸表情数据集上的识别率,图7表示不同分块方式在JAFFE上的识别率折线图。可以看出,如果对预处理之后的整幅表情图像进行分类,则无论对图像提取哪个阶数的高斯马尔可夫随机场特征,识别率都较低。其主要原因是对图像细节信息提取不完全。但是,如果对预处理图像进行分块,多种分块方式的识别率均高于整幅图像不分块的识别率。所以,采用适当的分块方式可以提高人脸表情识别正确率。

表1 不同分块方式在JAFFE上的识别率

图7 不同分块方式在JAFFE上的识别率折线图

表2表示不同分块方式组合的识别率,图8表示不同分块方式组合的识别率折线图。可以看出,不同分块方式组合的特征向量相对于单一分块方式得到的特征向量,识别率有明显的提高。然而,在9、16、25、36、49和64子块的结合时,分块结合的不同阶数的GMRF特征θb6,o,其识别率开始降低或者不再上升,这是由于过多分块方式的结合使特征信息重复率升高,差异化越来越小造成的。

表2 不同组合方式在JAFFE上的识别率

图8 不同组合方式在JAFFE上的识别率折线图

综上所述,多个分块方式的结合有利于人脸表情识别率的提高。但人脸表情的分块以及分块方式的结合都需要在一定限度之下,过多的分块以及组合会降低人脸表情识别率。在9、16、25、36、49和64子块的结合时,不同阶数GMRF特征θb6,o的情况下,本文算法的人脸表情识别率达到最高(89.85%),表明了其有效性。

5 结 语

本文采用高斯马尔可夫随机场算法进行人脸表情图像的特征提取,高斯马尔可夫随机场特征可以有效地描述图像局部的纹理信息及其空间位置关系,刻画人脸表情变化。为了获得人脸表情更多的细节信息,本文还对图像进行分块处理,且对不同分块方式提取的GMRF特征进行组合。最后采用KNN分类器进行表情分类实验,结果表明了本文方法的有效性。

猜你喜欢

马尔可夫分块识别率
面向量化分块压缩感知的区域层次化预测编码
钢结构工程分块滑移安装施工方法探讨
一种面向不等尺寸分块海量数据集的并行体绘制算法
面向电力系统的继电保护故障建模研究
分块矩阵初等变换的妙用
基于马尔可夫链共享单车高校投放研究
基于马尔可夫链共享单车高校投放研究
基于马尔科夫算法对预测窗户状态模型的研究
事业单位财务风险预测建模及分析
档案数字化过程中OCR技术的应用分析