基于相似度统计的ISOMAP 表情强度度量方法

2022-07-08胡宇森禹素萍许武军范红

电子技术与软件工程 2022年8期

胡宇森禹素萍许武军范红

（东华大学信息科学与技术学院上海市 201620）

1 引言

人脸表情识别一直都是计算机视觉领域的重要研究课题之一。作为多学科交叉的领域，近年来随着信息技术和人工智能技术的发展，表情分析从定性到量化，使得计算机可以通过算法对表情进行分类，对强度进行定量化。面部表情识别是实现人机交互、赋予机器情绪识别能力的重要环节，而面部表情识别包括了对表情的分类和对表情强度的识别。目前对表情表情分类的研究较多，而对表情强度的识别研究较少。在已有的表情强度识别的方法中，Lien J 等采用对一段表情序列进行标记再训练的方法，这种方法虽然方便快捷，但对表情强度的定义具有很强的人为主观性。Ka Keung Lee等依赖序列的前后关系给出表情强度值。陈伟宏提出的方法可以自动提取出表情强度值，但由于其在特征提取步骤采用的L-K 光流法的跟踪不稳定，故给后续的强度识别造成了很大影响。对LK 光流法提取的特征点进行进行校正，采用特征降维的方法实现了对单类表情的强度度量。本文将通过提取特征点，提出了基于相似度统计的ISOMAP 方法，实现了对高维人脸特征点数据进行降维，并实现自适应表情强度度量。

2 面部特征提取

根据Ekman对人类表情的系统性研究，人类的基本面部表情都是基于面部肌肉变化所产生的，之后的实验中将面部划分为额-眉、眼-睑、鼻-唇三大区，研究三大区域面部肌肉的变化和表情的联系从而提出六大基本情绪：愉快、惊奇、悲伤、厌恶、愤怒和恐惧。为了提高算法效率和准确率，需要对数据集中的图片进行预处理。而从直观角度上描述人脸表情，本文使用ASM 算法检测并提取面部器官关键角点，并以器官形变作为辅助的方法描述人脸表情特征，得到的特征可用于后续表情分类和表情强度度量。

2.1 数据预处理

在人脸图像的识别和分类任务中，彩色图像虽然在人眼视觉方面可以体现更多的细节，但直接对彩色图像进行分析和处理会增加计算的复杂度，且由于图像采集过程中环境不断变化会造成采集图像的光照分布不均。而在人脸图像的识别和分类任务中更加关注人脸整体的轮廓和器官的边缘细节，这些关键特征和细节并不会压缩图像通道而造成较大影响。故需要对图像进行灰度化处理，减少外界环境和采集设备不同对成像的影响的同时，保留重要的人脸图像特征和细节。如图1 和图2 所示。

图1：原图像

图2：灰度图像

由于采集的人脸图片中并不是所有部分都可用于后续分析，部分背景或场景还可能产生干扰信息，所以需要通过人脸检测算法对图片中的人脸部分进行检测并裁剪。由于裁剪之后的若干样本图像尺寸往往不一样，会对后续检测点的坐标造成极大影响，故对所有样本图片采取尺寸归一化。如图3 所示。

图3：裁剪及归一化前后

2.2 特征点提取

提取特征点需要借助主动形状模型(active shape model,ASM)该方法由Tim Coots 等提出，通过建立关键节点并制定节点之间的相互限制条件来对物体的形状进行描述，在建立形状模型之后用向量和距离对目标物体进行抽象。ASM通过在一系列的形状模型中学习出该类物体的平均形状，从而利用关键点之间的向量对描述某类物体。

ASM 算法主要分为3 个步骤：样本定义、样本训练、样本搜索。

样本定义：手动对训练集中的n 个样本图像中的目标进行标记，每个目标标记k 个特征点，记录这些特征点的坐标，并用一个形状向量表示每张图片中的目标：

样本训练：对训练样本中的形状向量利用Procrusts 分析法进行逐一对齐，以保证目标物体在空间中的方向和位置保持一致，计算这些形状向量对应的平均位置，得到该目标的平均形状。将所有训练样本向平均形状进行对齐直到收敛。通过PCA 降维减少冗余维度，描述每个已知特征点的局部特征，以方便后续寻找新的特征点的位置。

样本搜索：根据初步的形状检测结果确定目标的大致位置，以训练好的平均形状进行仿射变换的模板，对目标进行初步对齐，在每个特征点附近进行特征匹配，最后更新模板上的特征点位置得到最后用于描述特定目标的特征点。

人脸面部表现的所有表情都可以通过特征点跟踪和定位，即对每一种表情以及表情的发生过程进行定量分析。如图4 所示是人脸五官的47 个关键点，人脸的眼睛、眉毛、嘴巴形态和运动幅度在表情分析中发挥关键性作用，故本文抛弃了有关人脸轮廓的关键点，只提取了包括眉毛、眼睛、外唇和内唇等共计47 个特征点，在减少后续模型计算量的同时保证最关键的信息特征可以被提取。

图4：人脸47 个关键点

3 表情强度识别

3.1 SVM表情强度分类

3.2 基于相似度统计的ISOMAP表情强度度量

针对特征偏多的高维数据，想要了解数据之间的相互联系，一般思路是通过降维方法对数据进行降维，过滤筛选冗余维度，如PCA 方法。而ISOMAP（等距特征映射）是在MDS 算法框架下的一种改进，该方法认为高维数据在其高维空间中的分布并不是随机，其分布而是符合一定维度的流形的假设。由于MDS 算法通过欧式距离来约束数据点之间的相对关系，但这只适用于描述样本之间线性关系的情况。对于存在非线性关系的样本，ISOMAP 使用测地线距离代替欧式距离。而为了确定所有数据点在二维流行上的相关性，需要通过KNN 方法构建样本间的邻接图，因此在邻接图上的两点的真实距离不应该是欧式距离表示，而是用邻接图上构建样本间的最短路径矩阵表示。将最短路径矩阵作为MDS 算法的输入计算低维空间的坐标。

每一个表情的特征点集合都代表了该类表情的某一强度，每个特征点的坐标都是该强度的一维特征。由于描述人脸的特征维度远大于样本数量，过高的样本维度对强度的区分并没有太大帮助，故需要对特征维度进行降维。由于一段视频序列，变化的只有表情的强度这一个变量，故理论上降为1 维即可对区分开每帧图片的相对强度。将采集的人脸特征点作为ISOMAP 算法的输入，得到高维特征在1 维空间的等距映射。以视频帧数为横轴，1 维等距映射结果为纵轴，可以得到人脸表情强度在二维坐标轴上的散点分布图。

ISOMAP 算法需要依靠KNN 算法构建近邻点，而在k值选择上针对不同数据集并没有一个合适的标准，目前对于近邻点个数的选择上统一采用的是实验法，而我们无法对高维空间中的数据分布有直观的认识，近邻点选择的不合理将直接影响邻接图的构建，在破坏数据流形的情况下是无法对保证降维的效果的。

本文受Chittaranjan Pradhan 等的启发，通过考虑数据值之间的相似性来构造邻域图而不是使用k 近邻的概念，以构造的相似矩阵来构建近邻图。

对于样本数位N，特征数为K 的样本数据集，可求样本间的距离为:

以此构造出样本距离矩阵D，并根据以下公式构造相似矩阵S：

最后将得到的邻接矩阵G 输入MDS 算法中完成对数据的降维。由于用于构造邻接矩阵的区分阈值d 主要依赖于数据本身的统计特征，如果阈值d 的选择过大，将导致高维空间点之间的距离全部断开，根据迪杰斯特拉算法就无法找到样本在高维空间的最短距离，从而导致所有样本分散度过大而无法区分，如果阈值d 的选择过小，构造的邻接矩阵将会非常复杂，出现了过多的冗余从而失去了降维的效果。因此本文结合积分平均值和算数平均值，以得到最适合数据分布的阈值d。同时该方法不依赖人的主观判断，能够自动地确定阈值的大小，实现了ISOMAP 降维的参数自适应。

4 实验结果分析

本实验所采用的数据S 集来自于CK+数据集，该数据集主要收集了18 到50 岁共123 位成年人表情，共计327个图像序列，相比CK 数据集增加了更多样化的样本。数据集包含7 种基本，表情，每个序列样本都是一种情绪由产生到峰值的波动变化，第一帧代表无表情状态，最后一帧为表情达到峰值时的状态。本实验取数据集中所有样本的最后一帧作为表情分类的训练数据和测试数据，取整段表情序列分析单个样本的表情强度。

对比图5 和图6，可以发现传统ISOMAP 方法在第4 帧和第5 帧表现不佳，而本文改进后ISOMAP 方法的强度划分结果符合我们对人脸产生表情是具有很强的连贯性，这符合样本表情序列由无表情到表情饱满的过程。表情变化的过程在起始阶段和完成阶段相对变化幅度较小，而在中间阶段前后序列的变化幅度是最大的，这点在图6 中得到很好体现。

图5：传统ISOMAP 的强度划分结果

图6：本文改进ISOMAP 的强度划分结果

将表情特征降维后的一维数据值区间限定在[0,1]区间内，对整个[0,1]区间进行均匀划分，当表情降维后数值位于[0,0.2]记Ⅰ级表情强度，(0.2,0.4]记为Ⅱ级表情强度，(0.4,0.6]记为Ⅲ级表情强度，(0.6,0.8]记为Ⅳ级表情强度，(0.8,1.0]记为Ⅴ级表情强度。

图7：传统ISOMAP 提取表情强度的残差

图8：改进ISOMAP 提取表情强度的残差

在得到一段视频序列的表情分割强度结果之后，将单帧图像的47 个特征点和对应的表情强度标签整理为新的数据集，训练SVM 分类器并测试，通过测试结果判断ISOMAP改进前后强度划分方法的效果。表1 为SVM 分类器对表情强度的划分结果。

表1： SVM 对高兴表情的强度划分结果

本文统计对同一表情数据集，强度分离成功的数据占总数据量的比例，设定了指标分离成功率。通过比较两个模型对同一数据集的分离成功率，两个模型对于同一组数据集的分离性能也不同。其分离性能如表2 所示。

表2： ISOMAP 改进前后分离成功率

表1 和表2 说明在同一组数据中，本文方法在划分表情强度的性能方面更优，对于某些分离难度较大的表情序列，本文方法在划分各序列强度上拥有更好的性能。

5 结语

本文提出了一种基于相似度统计的ISOMAP 表情度量方法，建立了自适应表情强度度量模型，实现了对一段表情序列输入的强度度量。本文算法添加了自适应因子，可以根据当时输入的数据统计这组数据的数学特性，依靠双均值找到并设定一个合理阈值分割点，并构建表情数据的特征点邻接矩阵，计算特征之间的测地线距离，来衡量不同特征之间的相似度，相似度越高，特征之间的距离越近。由于本文方法没有过多复杂的算法设计，本文方法在实时强度分割方面也要优于其他方法，实验证明该方法适用于处理连续的表情强度度量，模型简单有效。由于本文的改进使模型实现了自适应。实际应用中的难点在于表情复杂程度远远高于数据集所包含的，且现实生活中的表情强度估计任务将面对更多的噪声干扰，任务将更多出现在被动环境中。另一个难点是微表情强度识别领域，在微表情任务中，人脸面部肌肉的活动将更小更精细，其对应情绪的判定也更加困难，对应的情绪边界也将更加模糊。未来也将在这一任务领域继续完善算法。