APP下载

基于分类思想的深度学习人脸美丽回归预测层设计

2019-06-27刘勇

现代计算机 2019年13期
关键词:概率分布人脸预测

刘勇

(四川大学计算机学院,成都510065)

0 引言

爱美之心,人皆有之,古往今来,不管历史怎么变化,社会怎么发展,人们从未停止对人脸美丽的探索,早在先秦时期,诗经中就有很多反映出当时人们对美的追求,如《硕人》一篇是赞美卫庄公夫人庄姜的诗,开篇即道:“硕人其颀”,其对容貌美的形容也为后人熟知,“手如柔荑,肤如凝脂,领如蝤蛴,齿如瓠犀,螓首蛾眉,巧笑倩兮,美目盼兮”。

随着数字图像技术、人工智能的发展,很多领域在人工智能的推动下蓬勃发展,人工智能技术无论是在过去、现在还是将来,都作为科学研究的热点问题之一。人类对自己本身的秘密充满好奇,随着生物技术的飞速发展,人类不断破译人体的生命密码。而以生物科学为基础的人工智能技术也得到了长足的发展。人们希望通过某种技术或者某些途径能够创造出模拟人思维和行为的“替代品”,帮助人们从事某些领域的工作。由于机器可以通过样本学习的方式学习到隐藏的标准规则,人脸肯定有一些特征是关于美丽的,也就是“人脸美丽密码”。那么是用机器学习技术来人工尝试从机器的视角辅助人们寻找人脸美的共性,为人脸美丽评估提供一个较为客观的标准也成为可能。

Gunes H 等人[1]结合医学研究成果“黄金比例”和“三庭”,在215 张图像上提取了相关的几何特征,使用C4.5 决策树训练预测器,将图像分为5 个美丽等级,取得了较好的效果。毛慧芸等人[2]使用了特征三角中心采样Gabor 特征和特征点采样Gabor 特征作为纹理特征提取方法,使用支持向量机进行预测,取得了不错的成绩。近年来,深度学习进入高速发展时期,在计算机视觉、语音识别、自然语言处理领域都取得了突破性进展,众多研究都说明了深度学习、CNN(卷积神经网络)在图像处理领域的巨大优势和潜能,深度学习技术为人脸美丽预测问题提供了新的解决方法。CNN 在人脸美丽预测中研究不是很多。2015 年Xie D 等人开源了一个名为SCUT-FBP 的人脸美丽数据集[3],包含了500张亚洲女性高分辨率的面部图像,他们使用了传统机器学习方法和深度学习方法做了对比,使用几何特征和纹理特征相结合的模型皮尔逊相关系数为0.6482。而使用CNN 模型的皮尔逊相关系数为0.8187。显然,深度学习在人脸美丽预测上有更大的优势。Xu J 等人[4]在认知心理的启示下提出了用WLS滤波器和人脸图层分解技术提取WLS-detail 和WLSlighting 特征,构造了PI-CNN 的深层卷积网络结合原始RGB 通道级联微调,最终在SCUT-FBP 数据集上达到了0.83 的皮尔逊相关系数。而近期Liu S 等人[5]使用几种ImageNet 上预训练的CNN 模型:VGG18、ResNet-50、ResNet-101 等进行实验,其中ResNet-50最高取得了0.87 的相关系数。

1 实验数据集介绍和数据预处理

1.1 数据集介绍

SCUT-FBT 是由华南理工大学人机智能交互实验室的Duorui Xie 等人于2015 年发布的人类美丽数据库[3]。SCUT-FBT 包含共500 张亚洲女性人脸图像,未排除其他外部因素影响,本数据集图片都是没有遮挡得正面面部肖像,背景比较简单。数据集包含每张图像的平均得分,每张人脸图像经过约75 位志愿者打分并统计平均值,图1 是整个数据集的人脸美丽分数的大致分布。可以看出人脸美丽的分数大致服从正态分布,即极端美丽级别的人脸比较少,大部分人脸得分处于正常美丽级别。值得说明的是该数据集增加了美丽级别为4-5 分的样本数量。

图1 SCUT-FBT数据库简介

1.2 数据预处理

在进行实验之前,首先需要对输入图像做一系列预处理操作。由于数据集上人脸图像尺寸大小和姿势都不一致,为了方便之后的模型学习,提高模型的泛化能力。通过对图像进行旋转、缩放等操作,将人脸图像归一化成为尺寸一致、人脸在图像中所占比例大致一致的图像[6]。对人脸图像进行归一化操作之前,首先需要进行图像中人脸的检测和人脸关键特征点定位,本文使用ASM 算法[7]进行人脸68 个特征点的定位。

先求得两眼的连线中点和嘴角连线中点的直线,计算其与Y 轴的夹角,将人脸进行旋转归一化。然后将两眼的连线中点和嘴角连线中点的距离固定为90,两眼的连线中点与图像顶端距离固定为67,嘴角连线中点与图像底端距离固定为67,得到归一化后的尺寸为224×224 大小的图像。

图2 图像预处理过程

2 分类思想的回归预测层设计

目前基本上所有基于深度学习的人脸美丽预测回归模型回归预测层都使用了同一种方法,即在全连接层之后直接连接一个神经元,如图3 所示,该网络前面可连接卷积神经网络作为特征提取器,然后将特征输入通过全连接层,将特征进行重组成更高层次的特征,最后连接在最后一个节点上。这样的直观感受就是每个节点的特征值都会对最终得分产生或正面或负面的影响,具体影响取决于该节点与预测分数节点连接的权值,如果权值为正,则说明该特征会给人脸美丽“加分”,同理权值为负,则说明该特征会给人脸美丽“减分”,其绝对值越大说明影响程度更大。这种网络可解释性较好,据分析可知它更倾向于找到每个人的美丽加分或减分点。本文将传统的回归预测层称为传统回归层,图3 为传统回归层示意图。

图3 传统回归层示意图

这种连接方式也有一些缺陷,如由于缺乏约束它的分数预测值理论上可以超出1-5 这个范围内,这种回归连接方式收敛过程中Loss 值抖动比较大。本文提出一种新的回归预测层的思路,该思路受分类网络启发,让网络学习人脸属于各美丽级别的概率,再通过求数学期望的方式得出最后得分,这也正是SCUT-FBP数据集标签的生成方式,显然通过学习人脸美丽级别的分布更符和问题的本质。本文将新提出的回归预测层称为概率分布回归层,图4 为概率分布回归层示意图。

图4 概率分布回归层示意图

概率分布回归层在传统回归层的最后一个全连接层之间加入了5 个隐藏节点,并使用了Softmax 函数进行了归一化处理,这五个节点值可以表示输入图像在五种美丽级别上的概率分布,本文用P=[p1,p2,p3,p4,p5]表示,然后通过一个特殊全连接层连接到美丽预测分数节点,该特殊全连接层本文定义为映射层。映射层参数w=[1 ,2 ,3,4,5],b=0。在网络训练和测试过程中,需要将映射层的参数冻结,不进行参数的更新。概率分布回归层的损失函数为求解期望美丽分值和真实美丽分值之间的均方误差,其中美丽分数期望可以表示为P∙w。下面本文通过对比实验来比较概率分布回归层和原始回归层的性能表现。

为了比较两种回归层的预测性能,本文使用了图5所示的相同的卷积神经网络结构,本文将使用传统回归层的网络称为LCNN-reg,将使用概率分布回归层的网络称为LCNN-cr,并将两种网络结构在SCUT-FBP数据集上进行对比实验。

3 实验及结果分析

3.1 实验步骤及细节

本文对比实验的实验步骤主要分为以下几部分:

(1)将SCUT-FBP 数据集图片进行数据预处理,得到标准的图片。

(2)载入深度学习网络模型及数据样本,将数据集进行5 折划分,配置对应超参数,开始训练。

(3)在每一折训练中,在训练集上进行训练,过程每轮迭代完之后对验证集图片进行预测得到模型预测序列,与真实标签序列计算皮尔逊相关系数并记录历史相关系数的最大值。当达到预设的迭代次数或满足EarlyStop 的条件时结束训练,直到五次训练完成。

本文对LCNN-reg 和LCNN-cr 配置相同的网络超参数,分别进行上述实验过程。学习率为0.0001,优化算法使用Adam 算法,本实验使用了EarlyStop 策略,当验证集Loss 在60 次迭代中没有下降则停止训练过程。实验同时使用了学习率衰减策略,当验证集Loss在20 次迭代中没有下降则将当前学习率乘以0.5。

图5 卷积神经网络结构示意图

3.2 实验结果及分析

单折数据上两种网络的训练情况如图6 所示,左边为LCNN-reg 网络的Loss 曲线,右边为LCNN-cr 网络的Loss 曲线。

图6 两种网络的Loss曲线图

可以看出,在同样的网络超参数配置下,LCNN-cr大概在90 次迭代后收敛,而LCNN-reg 则需要大概130 次迭代收敛。相比于LCNN-reg 的Loss 下降曲线,很明显可以看出LCNN-cr 的Loss 下降曲线非常平稳,这说明LCNN-cr 更容易收敛至最优点附近,网络结构比LCNN-reg 更稳定。两种网络的五折交叉验证平均系数如表1 所示。

表1 实验结果

可以看出,LCNN-reg 的五折交叉验证平均系数为0.8374,而LCNN-cr 的五折交叉验证平均系数为0.8492。提升效果非常明显。

4 结语

根据实验结果,本文总结出概率分布回归层相比传统回归层的几个优势:

(1)同样的网络参数配置下,相比于传统回归层,概率分布回归层有更快的收敛速度和更高的精度。

(2)从概率分布回归层的结构可以看出,最后输出的预测分数的范围限制在1-5 之间,相比没有输出约束的传统回归层,它的分数表示更加科学合理。

(3)概率分布回归层综合了分类和回归的优点,一次训练得到两种网络的效果,不仅可以输出人脸的最后得分,还可以输出隐藏层的各个美丽级别的概率,可解释性较强。

本文提出了一种针对深度学习人脸美丽回归预测的新的概率分布回归层结构,综合实验证明,本文提出的概率分布回归层在深度学习人脸美丽回归预测任务中相比传统回归预测层有几个显著的优点,在深度学习回归网络中使用概率分布回归层替换掉传统回归层可以提高模型性能和模型的可解释性。

猜你喜欢

概率分布人脸预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
有特点的人脸
玻璃窗上的人脸
弹性水击情况下随机非线性水轮机的概率分布控制
概率分布问题思路探究
关于概率分布函数定义的辨析
风速概率分布对风电齿轮