基于卷积神经网络和深度特征融合的学习表情识别

2022-04-20范凌云

科学技术创新 2022年11期

范凌云

(重庆城市职业学院，重庆 402160)

1 概述

学习表情识别是智慧教育系统的关键功能，有助于教师判断学生的学习状态,进而采取适当措施,进行个性化辅导，提高学习效率。目前，学习表情识别已成为智慧教育领域的研究热点。但是，不同的学习表情存在局部重叠现象，例如厌恶的皱眉、高兴的眉毛下拉动作都会导致眼睛变小。所以，仅通过距离、角度等几何特征无法有效区分面部变化存在重叠的表情。特征提取是表情识别的关键步骤，研究人员对此开展了深入研究，研究表明融合特征具有更好的识别效果。例如，Yuechuan Sun等人使用Gabor、LBP 融合特征向量进行表情识别，达到了比单一特征向量更好的识别效果[1]。Liu Yanpeng 等人利用LBP 和HOG 融合特征实现了更佳的识别效果[2]。除了上述浅层特征的融合，当前主流的深度学习模型CNN（卷积神经网络）可以根据浅层特征[3]进一步提取到深度特征，从而实现深度特征融合，增强抗噪性和区分能力。因此，本文基于卷积神经网络提取深度特征，并将深度特征融合，以提升学习表情的识别效果。

2 人脸图像预处理

人脸图像预处理是表情识别的首要环节，包括人脸检测、图像归一化处理，其主要目的是分割出人脸部分的图像，降低噪声干扰，提高对比度[4]，保留图像的关键信息。

2.1 人脸检测

人脸检测通过算法判断图像中是否有人脸，并对人脸进行定位，从而分割提取出脸部区域。基于Haar 特征的Adaboost 算法是一种主流的人脸检测算法，该算法基于特征描述进行人脸检测[5]，具有速度快、鲁棒性好等优点。Haar 特征值反映了图像的灰度变化情况，Adaboost算法通过弱分类器叠加构成强分类器，再将强分类器级联，就可利用Haar 特征值实现人脸快速检测[6]。使用OpenCV 视觉库可以快速实现基于Haar 特征值的Adaboost 人脸检测算法，其操作流程如下：（1）调用CascadeClassifier 方法加载已训练好的Adaboost 联级分类器。（2）调用imread 方法加载图像。（3）调用detectMultiScale 方法对图像进行人脸检测。（4）使用Rect和imwrite 方法实现人脸截取及保存。

2.2 归一化处理

人脸图像归一化可以有效减少干扰信息，并生成标准化的人脸图像，进而提升表情分类、特征提取算法的效率[7]。本文利用OpenCV 视觉库实现人脸图像的灰度归一化处理，提取灰度特征，并将图像尺寸几何归一化为224*224 分辨率，如图1 所示，其操作流程如下：（1）调用imread 方法加载图像，并使用cvtColor 方法实现图像灰度化；（2）调用equalizeHist 方法进行直方图均衡化处理，解决图像光照度不足等问题；（3）创建Mat 对象并指定几何归一化后的图像尺寸和类型；（4）调用resize 方法实现几何归一化；（5）调用imwrite 方法保存几何归一化后的图像。

图1 预处理后的范例图

3 深度融合特征提取

3.1 LBP 特征提取

LBP（Local Binary Pattern，局部二值模式）能够有效描述局部图像纹理空间结构，具有旋转不变性和灰度不变性[8]，并对光照有较强的鲁棒性，是一种主流高效的表情识别特征。其中，均匀模式LBP 是一种改进的LBP 算子，不仅大幅度减少了数据，还有效保存了图像的完整信息[9]。均匀模式LBP 的基础是圆形LBP 算法，其核心是判断二进制编码的变换次数，算法流程如下：

3.1.1 以某像素点为圆心，在半径为R 的圆形邻域内提取P 个采样点。如图2 所示，该邻域以2 为半径，定义了一个5x5 的邻域，并在邻域中提取了8 个采样点。

图2 LBP邻域图

图2 中采样点的提取方法如公式（1）、公式（2）所示，其中，(xt,yt)为某个采样点的坐标，(xd,yd)为邻域中心点坐标，p 为第p 个采样点的编号，P 为采样点的个数。

3.1.2 将P 个采样点依次与中心像素点的灰度值相减，如果差大于0，就将该像素点的位置标记为1，否则置为0[10]。由此，得到P 个二进制数，然后按一定顺序排列（通常按采样点顺时针组合），得到一个P 位二进制数，该值就是中心像素点的LBP 特征值。

3.1.3 对第2 步得到的二进制LBP 值进行跳变统计，根据跳变次数是否大于2，可将LBP 值分为等价模式类和混合模式类。由此，将二进制模式种类由原来的2p 减少为p(p-1)+2 种，且不会丢失任何信息[11]。

3.1.4 将第3 步得到的二进制等价模式类，按从小到大的顺序分别编码为1～p(p-1)+2，该编号就是相关中心像素点在LBP 特征图像中的灰度值；而所有的混合模式类全部编码为0，即所有的混合模式类相关的中心像素点在LBP 特征图像中的灰度值为0。利用OpenCV 视觉库可以实现上述算法，从而求解出图像中每一个像素点的LBP特征值，即整张图像的LBP 特征表示，如图3 所示。

图3 灰度图像的LBP 描述

3.2 基于CNN 的深度特征提取与融合

卷积神经网络（CNN）是能够进行卷积运算的深度前馈神经网络，一般由卷积层、池化层和全连接层组成[12]，能有效提取深层图像特征。此外，CNN 的局部感知、权值共享及池化特性能够大幅降低计算复杂度，提升训练速度，并实现平移、缩放和旋转不变性。Alexnet 是一种经典的多特征融合网络模型，因此，本文选用AlexNet 模型构建卷积网络以实现深度特征的提取与融合，其具体步骤如下：3.2.1 基于AlexNet 模型实现CNN 网络；3.2.2 利用AlexNet 网络提取灰度图像的深度特征FColor；3.2.3 利用AlexNet 网络提取LBP 纹理图像的深度特征FLBP；3.2.4由于FColor特征数据值与FLBP特征数据值的大小差异巨大，导致计算非常耗时。因此，必须对FColor特征和FLBP特征数据进行零均值标准化，如公式（3）所示，相关参数的计算方法如（4）、（5）、（6）表示。

其中，fi代表第i 个数据，μ 是所有样本数据的均值，σ 是标准差，用于衡量数据的稳定性，n 代表数据的总数量，std 为方差，用于衡量数据的离散程度。3.2.5 对零均值标准化后的FColor特征和FLBP特征数据进行向量拼接（即串联），从而得到融合后的特征向量Ffuse，见公式（7）。

3.2.6 主成分分析法（PCA）是一种常见的数据分析方式，主要用于高维数据的降维，可提取数据的主要特征分量[13]，从而使用较少的数据维度保留较多的原数据点特性。因此，本文进一步对融合特征进行PCA 降维处理，从而有效减少冗余，提高识别效率。

4 基于深度融合特征的表情识别实验

支持向量机（SVM）是当前最流行的机器学习分类算法之一，其本质上是一种二分类模型，支持线性与非线性分类。由于线性可分在实际应用中具有一定的局限性，SVM 引入了核函数，将线性不可分的原始数据集从低维映射到高纬空间，从而将其转换为线性可分[14]。如图4(a)所示的二维环形原始数据集，当使用核函数将其映射到如图4(b)所示的三维空间后，不仅可以获得最优超平面实现两类数据的分类，还可大幅减少计算量。因此，本文选择SVM 实现表情分类识别。

图4

4.1 实验环境及流程

高兴和厌恶是学习过程中的两种关键情感，当学生处于积极学习状态，就表现出高兴表情，而处于消极学习状态时，则表现出厌恶表情。因此，为验证深度融合特征的有效性，本文选取了CK+数据集的164 张高兴、厌恶表情图像进行实验，其中训练样本集包括高兴表情65张、厌恶表情58 张，测试样本集包含高兴表情23 张、厌恶表情18 张。实验平台为PyCharm 2020.1.3(Community Edition)，Python 版本为Python3.8，涉及的相关库文件包括：tensorflow、Matplotlib、cv2、sklearn、pandas、playsound、scikit-image、h5py、dlib、keras。此外，为验证融合特征的鲁棒性，本文在上述CK+数据集上进行了2 组实验。实验1 基于单一的LBP 纹理特征进行学习表情识别，而实验2 则基于融合特征进行学习表情识别，其实验流程如下：4.1.1 对CK+数据集的高兴、厌恶表情图片预处理；4.1.2 提取LBP 特征；4.1.3 利用AlexNet 网络提取灰度图像的深度特征FColor；4.1.4 利用AlexNet 网络提取LBP纹理图像的深度特征FLBP；4.1.5 对FColor特征和FLBP特征数据进行零均值标准化；4.1.6 对归一化之后的特征FColor和FLBP进行串联，形成深度融合特征Ffuse；4.1.7 对Ffuse进行PCA 降维；4.1.8 将Ffuse输入SVM 中进行训练和分类。