APP下载

面向听视觉信息的多模态人格识别研究进展

2021-07-05赵小明唐志伟张石清

智能系统学报 2021年2期
关键词:人格特质特征提取人格

赵小明,唐志伟,张石清

(1. 浙江理工大学 机械与自动控制学院,浙江 杭州 310018; 2. 台州学院 智能信息处理研究所,浙江 台州 318000)

心理学家认为,一个人的性格从出生时就已经注定的。因此,每个人都有其特定的性格。在心理学领域,为了研究与人的性格相关的个性,现已提出了各种各样的理论和方法对其进行解释或测量。Vinciarelli等[1]将人格定义为:“人格是一种心理结构,旨在解释人类行为的多样性,具有少数、稳定和可测量的个体特征”。Costa等[2]提出一种人格特质理论,即认为特质(traits)是决定人类个体行为的基本特性的重要因素之一,是人格组成的关键元素,也是用于测评人格的基本度量单位。它用来衡量人的性格特征,即随着时间的推移相对稳定的人类行为、观念和情感的习惯模式。

近年来,随着认知科学、计算机科学等理论的发展,研究者开始尝试根据一个人给人第一印象(first impression)的行为数据(如听觉、视觉等音视频信息),采用机器学习方法来实现人格的建模与计算,称为人格计算(personality computing)[3]。其中,自动人格识别是人格计算研究中一个重要的研究内容。它是指利用计算机根据一个人第一印象的行为数据来自动识别和分析个体心理特征的过程。可见,人格识别是利用计算机科学理论来实现认知科学中的性格预测问题的建模。如果采用的行为数据为单一模态的听觉或视觉信息,则称为单模态人格识别。如果是融合多个模态的行为数据,如听觉、视觉等音视频信息,则称为多模态人格识别。该研究在人类行为分析、人工智能、人机交互、个性化推荐等方面具有重要的应用价值。例如,企业招聘新员工时,可根据面试人员的第一印象,采用自动人格识别技术来识别面试人员的性格特征,从而筛选出更合适的员工。

当前,有关自动人格识别的研究已成为心理学、认知科学、计算机科学等领域中的一个多学科交叉的热点研究课题。2016年,欧洲计算机视觉大会(ECCV)举办了第一场全球范围的基于短视频的自动人格识别专题竞赛[4],使得基于社交媒体内容的自动人格特质识别成为一个富有挑战性的热点研究课题。2017年,国际计算机视觉与模式识别大会(CVPR)举办了第二场采用人格特质进行求职者筛选的相关专题竞赛[5]。从那之后,有关自动人格识别的研究开始备受计算机视觉、模式识别、人工智能等领域研究者的关注。

本文将对自动人格识别领域涉及的核心研究内容,如人格类型表示理论、人格识别数据库的建设、人格特征提取以及面向听视觉信息融合的多模态人格识别方法等方面,详述国内外研究进展状况,并指出未来的发展方向。

1 人格类型表示理论

心理学中的人格被认为是个体与行为、情感、思维方式有关的特征综合,人格特质可以被识别为对用户行为的预测。在心理学领域,通过多个分类维度和测量问卷[6]对人的人格状况进行建模,形成了几种不同的人格模型,主要有“大五”模型[7]、卡特尔16种人格因素(16PF)[8]、Myers-Briggs类型指标(MBTI)[9]、明尼苏达多项人格调查表(MMPI)[10]和艾森克人格问卷(EPQ)[11]。这几种人格模型具体表述如下。

1.1 大五模型

由美国著名心理学家McCrae等[8]提出的大五类(Big-Five)因素模型被广泛用来描述人的人格。该模型通过以下5个维度描述人类的人格,具体特征如下:

1)开放性(openness,O):艺术性、好奇心、想象力、洞察力、独创性、广泛兴趣等;

2)尽责性(conscientiousness,C):高效、有组织、有计划、可靠、负责任、彻底等;

3)外向性(extroversion,E):积极、自信、精力充沛、外向、健谈等;

4)宜人性(agreeableness,A):欣赏、善良、慷慨、宽容、富有同情心、信任他人等;

5)神经质(neuroticism,N):焦虑、自怜、紧张、敏感、不稳定、令人担忧等。

“大五”模型是一种心理学中最具影响力的模型之一。五项的人格特质因素评分值进行加权求和得出五项人格因素的最终评分,预测出测定人的五项人格因素指数值,并将其作为测定人的最终的人格特质预测结果。目前,大五因素模型,被人们广泛用于人格计算,用于发现人类5个人格维度方面的证据。

1.2 卡特尔16人格因素模型

卡特尔16种人格因素模型[8]是美国伊利诺州立大学人格及能力测验研究所卡特尔教授编制的用于人格检测的一种问卷,简称16PF。他用因素分析法对人格特质进行了分析,提出了一种基于人格特质的理论模型。该模型分成4层:个别特质和共同特质,表面特质和根源特质,体质特质和环境特质,动力特质、能力特质和气质特质。

16种人格因素的含义如下:

1)因素A乐群性:低分特征——内向、缄默、孤独;高分特征——外向、热情、乐群。

2)因素B聪慧性:低分特征——思想迟钝,学识浅薄;高分特征——聪明伶俐,富有才识。

3)因素C稳定性:低分特征——情绪激动不稳定;高分特征——情绪稳定且成熟。

4)因素E恃强性:低分特征——谦逊、顺从;高分特征——好强、固执。

5)因素F兴奋性:低分特征——严肃、冷静;高分特征——轻松、兴奋。

6)因素G有恒性:低分特征——原则性差、做事敷衍;高分特征——有恒心、做事尽责。

7)因素H敢为性:低分特征——做事畏缩、缺乏自信心;高分特征——冒险敢为、少有顾忌。

8)因素I敏感性:低分特征——理智、粗心、着重现实;高分特征——敏感、细心、易感情用事。

9)因素L怀疑性:低分特征——依赖、随和、易与人相处;高分特征——怀疑、刚愎、固执己见。

10)因素M幻想性:低分特征——现实、合乎成规;高分特征——幻想、狂放不羁。

11) 因素N 世故性:低分特征——坦诚、直率、天真;高分特征——精明、圆滑、世故。

12) 因素O 忧虑性:低分特征——安详、沉着、有自信心;高分特征——忧虑、抑郁、缺乏自信。

13) 因素Q1 实验性:低分特征——保守、尊重传统观念;高分特征——激进、不拘于现实。

14) 因素Q2 独立性:低分特征——依赖、随群附众;高分特征——当机立断、自主性强。

15) 因素Q3 自律性:低分特征——不守纪律、随心所欲;高分特征——自律谨严、知己知彼。

16) 因素Q4 紧张性:低分特征——镇定自若、心平气和;高分特征——手足无措、心神不宁。

上述16 种人格因素是各自独立的,相互之间的相关度极小,每一种因素的测量都能使被试某一方面的人格特质有清晰而独特的认识,更能对被试人格的16 种不同因素的组合做出综合性的了解,从而全面评价其整个人格。

1.3 其他常用人格模型

Myers-Briggs类型指标(MBTI)[9]:包含4个维度,即内向-外向、感觉-直觉、思维-情感、判断-感知。4个维度如同四把标尺,每个人的性格都会落在标尺的某个点上,这个点靠近哪个端点,就意味着个体偏向哪一方面。

明尼苏达多项人格调查表(MMPI)[10]:通过测试人回答的问题选择是、否的个数来测试其人格;艾森克人格问卷(EPQ)[11]包括3个维度(E为内外向性、N为神经质、P为精神质)和一个效度量表(L),通过对E、N、P得分的不同,综合得出测试者的人格。

因为这些人格测试模型的适用人群不同,所以获得的效果也有所不同,近年来,随着研究的深入,“大五”模型被认为是最适合人类的,被广泛用于测量人类人格。

2 人格识别数据库

开展听视觉人格识别研究,首先要建立人格识别数据库。近年来,研究者已经相继建立了一些人格识别数据库,其中代表性的数据库有8个,如表1所示。YouTube vlogs[12-14]:该数据集介绍了vlogs作为一种丰富的人与人之间的交互,这种交互方式本质上是多模态的,适合于新的大规模行为数据分析。YouTube vlogs[13]数据集包含2 269个视频,视频长度在1~6 min,共计150 h,来自469个不同的vloggers。该数据集包含2009年收集的视频元数据(包括性别、年龄、笑的出现次数等)和观众评论。录音设置是参与者正在与能够显示参与者头部和肩膀的摄像机交谈,其中,录制内容包含个人视频博客、影片、产品评论等各种主题内容。

表 1 代表性的人格数据库Table 1 Representative personality database

ELEA[15]:该数据集由40个会议组成,每次约15 min,时长为10 h。它由28个4人会议和12个新组建团体的3人会议组成,即由以前不认识的人组成。共有148名参与者(48名女性,100名男性),平均年龄25.4岁(标准差5.5)。ELEA会议的所有参与者都被要求参与冬季生存挑战任务,但没有被分配特殊的角色[16]。使用麦克风采集音频,音频采样率为16 kHz。有关录像带设置有两种:第一种是静态设置,包括6个摄像头,视频帧率为25 f/s;第二种是便携式设置,包括两个摄像头,视频帧率为 30 f/s。

SEMAINE[17]:该数据集采用敏感人工监听(sensitive artificial listener,SAL)方式进行录制对话。它可以让一个人进行持续的、带有情感色彩的对话。高质量的录音由5个高分辨率、高帧频的摄像机和4个麦克风同步录制。录音包含150名参与者(57名男性和93名女性),平均年龄32.8岁。固态SAL(使操作员做出合适的非语言行为)和半自动SAL(用户的体验接近于与机器交互)的代表性对话持续时间约为30 min。共收集到959个与个人SAL角色的对话,每个对话持续约5 min。自动SAL对话持续近1 h,每3 min 8个角色进行交互。所有参与者与两个版本的系统进行互动,间隔10~15 min完成心理测量。

SSPNet[1]:该说话人语料库是从语音中进行人格特质评估的数据集。它包括322个发言者的640个音频片段,是从瑞士的法国新闻公报中随机抽取。所有的音频片段都是以8 kHz的频率采样的,大部分都是10 s,有些更短。此外,还邀请11名法官(不熟悉法语,不受语言线索的影响)通过填写BFI-10个性评价问卷[18],对每一个片段进行注释。在调查问卷的基础上,计算出每个大五人格特质的得分。

ChaLearn First Impression V1[4]:该数据集是由YouTube视频中的10 000个短片组成,每段视频分辨率为1 280×720,每段时长约15 s。这些短视频是从约2 762个YouTube高清视频中收集的。视频是用英文面对和对摄像机说话的人。视频中涉及的人具有不同的性别、年龄、民族和种族。这是迄今为止可用于表象人格分析(apparent personality recognition)的较大规模的音视频数据集。ChaLearn First Impression V2[19]数据集是ChaLearn First Impression V1[4]的扩展版,添加了一个以前没有使用过的预测变量,即“工作面试”场景进行预测,并且提供了与视频相对应音频信息的手动转录。

Physiognomy[20]:该数据集是用来研究人格特质与人脸图像之间的相关性。它包括186人(94名男性和92名女性)的面部照片。参与者被要求坐在白色背景前,用中性的面部表情拍照。此数据集是为东亚人种设计的,不同于现有的针对白种人的研究[21]。

MHHRI[22]:该数据集旨在同时研究人-人-机器人交互(HHI)和人-机器人交互(HRI)中的人格特质。它包含18名参与者(9名女性),其中大部分是研究生和研究人员。包括12段互动对话,时长约4 h。每次互动对话都有10~15 min。对话使用以自我为中心的两个静态和两个动态摄像头以及两个生物传感器记录。另外,参与者需要佩戴一个Q-传感器,配有Effectiva设备来记录生理信号。

3 特征提取

针对听视觉信息的人格特征提取是人格识别研究的一个关键问题。目前有关人格特征提取主要有两种:手工设计的听视觉人格特征(语音人格特征和视觉人格特征)和采用近年来发展起来的深度学习技术[23-27]进行提取的深度听视觉特征,具体表述如下。

3.1 语音人格特征提取

对于基于听觉信息的人格特质识别,它涉及两个关键部分:特征提取和人格特质预测的分类器,如支持向量机(SVM)和线性回归器。这里我们将重点介绍低层次的手工特征提取和高层次的深度特征提取。表2简要总结了基于听觉信息的人格识别情况,详细内容如下。

3.1.1 手工语音特征

语音信号主要包括语义信息和声学信息。目前常提取的低层次的音频特征是手工制作的低层描述(Low-level descriptors,LLD)特征,主要有三类:韵律特征、音质特征以及谱特征。韵律特征包括基频(pitch)、能量等,音质特征包括共振峰、声道参数等,而谱特征包括梅尔频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)等。

Mohammadi等[1]提取韵律特征(如基频、能量、有声段和无声段的长度)和音质特征(如前两个共振峰),对于说话人人格语料库SSPNet中的322名参与者进行了640多个语音片段(10 s内)的实验测试。每个语音片段的评估人数为11人,他们采用Logistic回归和SVM分类器来识别一个音频片段是否超过了大五人格特质中每个人的平均得分。

Mairesse等[28]采用了与文献[1]相同的韵律特征,使用大五人格特质用于人格识别。实验测试是在语料库EAR[29]中的96名参与者身上进行。人格评估分数是通过对个体分配的分数进行平均得到,每份样本由6名独立评估员组成。实验旨在预测参与者确切的人格特质分数,并根据预测的分数对参与者进行排序。基于听觉和文本对所有五大人格特质的识别的实验结果中,通过返回观察到的平均得分的方法,最好的结果(针对外向性和神经质)是减少大约15%的错误率。

Valente等[30]通过韵律特征(说话速率、基频平均值、最小值、最大值、中值和标准差等)等,在一个包括128名参与者的会议场景中工作的会议语料库进行了实验,通过SVM分类器对大五人格特质进行分类。Ivanov等[31]提取包含韵律特征、音质特征和谱特征等6 552个声学特征,在包含 12个人的119个语音样本的数据集进行说话人的“大五”人格的分类。Levitan等[32]提取包含韵律特征、音质特征和谱特征等6 373个声学特征,在包含172个人的1 225个语音样本数据集进行大五人格的识别。

表 2 基于听觉的人格识别总结Table 2 Summary of audio-based personality recognition

Carbonneau等[33]提出了一种基于特征学习和谱图分析的方法,在保持高精度的同时简化了特征提取过程。所提出的方法从训练语音段的谱图中提取的块中学习了一个判别式特征字典。然后使用该字典对每个语音段进行编码,随后用SVM分类器对大五人格特质进行分类。

3.1.2 深度语音特征

近年来,深度学习方法被广泛用于基于语音信号的人格识别领域。本质上,深度学习方法的目标是通过使用多个非线性变换的层次结构来实现高层的抽象特征表示。因为低级特征数量有限并且不能完整描述语音信号,研究者尝试利用深度学习方法从低级特征中学习提取高级的深度属性特征。常用深度学习方法有卷积神经网络(convolutional neural network,CNN)[34]、深度信念网络(deep believe network,DBN)[35]、循环神经网络(recurrent neural networks,RNN)[36]等。

CNN最初由LeCun等于1998年提出,在2012年被发展成一种深度高级版本(AlexNet)。CNN的基本结构包括输入层(input layer)、卷积层(convolutional layer)、池化层(pooling layer)、全连接层(full connection layer)和输出层(output layer)。DBN是由Hinton等在2006年提出的一种生成模型,其目的是捕捉输入数据的高阶分布特征表示。RNN是一种捕捉时间信息的单一前馈神经网络,可用来处理序列数据。RNN包含连接相邻时间步的递归边缘,从而提供了模型中时间的概念。长期短时记忆(long short term memory,LSTM)[37]是由Hochreiter等于1997年提出的一种改进的RNN结构。LSTM可以缓解RNN训练过程中产生的梯度消失和爆炸问题。

Hayat等[38]提出一种基于卷积神经网络(CNN)的语音人格特征提取方法,通过采用CNN学习音频特征来预测说话人的五大人格特质得分。他们采用一个在现有大型语料数据库上预训练好的CNN模型(AudioSet),在目标第一印象人格数据集上进行微调,从而提取用于人格特质识别的高层次音频特征表示。实验结果表明,采用这种CNN学习到的深度特征获得的性能优于手工特征方法。

Su等[39]研究采用一种基于小波多分辨率分析和CNN相结合的方法,用于学习语音信号的人格特征。该方法首先采用小波变换将语音信号分解为不同分辨率的信号,然后提取各分辨率下语音信号的声学特征。随后,利用CNNs生成BFI-10的轮廓进行量化测度,最后利用人工神经网络进行人格特质识别。

Zhu等[40]提出了一种跳帧(skip-frame)LSTM系统,用于实现从普通话语音中自动识别说话者的人格。所研究的人格特质从标准的大五人格特质扩展到每种人格特质的6个子特征,总共有30个人格子特征。该LSTM系统利用跳帧采样来增加训练数据,同时长时间保持韵律变化。LSTM系统直接从MFCCs中学习人格特质信息,而不是像采用SVM的系统那样需要手动设计韵律特征。实验结果表明,外向性(extravers ion)特质最容易被识别,而开放性(openness)特质 最难被识别。

3.2 视觉人格特征提取

根据视觉输入数据的类型,基于视觉的人格特质识别可分为静态图像和动态视频序列。Junior 等[3]研究利用静态图像进行自动人格识别实验。这类实?验通常关注面部信息来驱动模型,通常是将不同层次的特征和它们之间的关系结合起来。通过手工提取的低层次视觉特征包括方向梯度直方图(histogram of oriented gradient,HOG)[41]、局部二值模式(local binary pattern,LBP)[42]、尺度不变特征变换(scale-invariant feature transform,SIFT)[43]等,而深度视觉特征是采用深度学习方法从低级图像中提取的高层次视觉属性特征。表3简要总结了基于视觉信息的人格识别情况,详细内容如下。

表 3 基于视觉的人格识别Table 3 Summary of visual-based personality recognition

3.2.1 手工视觉特征

1)静态图像:在基于视频的人格特征提取中,主要侧重于人格相关的视觉人脸图像特征的提取。静态图像是既不使用音频信息也不使用时间信息的静止图片,在经过一系列的预处理(如旋转校正、人脸定位等)之后作为后续处理过程的对象。手工从图像中提取低层特征主要有方向梯度直方图(HOG)、局部二值模式(LBP)、尺度不变特征变换(SIFT)等。

Dhall等[44]提出了一种采用计算机视觉方法实现从用户的Twitter资料图片中推断用户的人格特质。这类似于人类仅通过查看另一个人的资料图片就会对其产生心理印象。该方法首先采用了梯度直方图金字塔(pyramid of histogram of gradients,PHOG)[45]、局部相位量化(local phase quantisation,LPQ)[46]等手工制作特征描述符,这些描述符是在用户资料图片上计算出来的。然后采用核偏最小二乘法(kernel partial least square,KPLS)回归,最后预测大五人格特质。

Guntuku等[47]提出采用人脸图像的颜色直方图、局部二值模式等低层次的视觉特征,用于检测性别、年龄等线索,在包含123个人的123幅图像样本进行大五人格的分类。Yan等[48]研究了外貌与人格印象之间的关系。他们从不同的人脸区域以及区域之间的关系中提取不同的低层特征。例如,方向梯度直方图(HOG)用于描述眉毛的形状,而欧式距离用于描述眼睛的宽度。为了缓解低层特征和高层特征之间的语义差异,通过聚类的方法从低层次的方向梯度直方图(HOG)、局部二元模式(LBP)、尺度不变特征变换(SIFT)等视觉特征中提取中间层次的特征,然后利用支持向量机(SVM)实现包含250个人的2 010幅图像样本的大五人格的识别。

聂婕等[49]提出采用5种视觉特征,包括颜色、纹理、形状、伊顿对比(Itten contrast)和表情特征,来构建“大五”人格模型,在包含64个人的2 000幅图像样本中实现人格的自动预测。Tareaf等[50]研究了在社交媒体上发布的个人资料图片与用户人格的关系。他们使用来自推特平台的个人资料图像,根据170万个数据点预测了他们的人格。他们通过提取50个独特的面部特征对用户的面部进行分析,以检验人格和个人资料图片之间的关系。实验结果表明不同人格之间在个人资料图片选择上的显著差异。

2)动态视频序列:动态视频序列由一系列视频图像帧组成,从而提供时间信息和场景动态。基于动态视频序列的特征提取方法与静态图像的不同之处在于动态序列图像反映了人脸表情运动的连续过程,因此动态视频序列的表情特征主要由人脸的形变及面部各个区域的肌肉运动上体现出来。

Biel等[51]利用Youtube vlog数据集的一个子集,研究了对话视频(vlogs)中的人格印象,重点是面部表情分析。他们在逐帧估计的基础上,通过结合面部活动统计,再利用SVM分类器实现了自动对人格特质进行预测。实验结果表明,外向性是活动特征线索利用率最高的特征。Gatica等[52]提出了一项使用vloggers的行为数据的研究方法,即使用同一用户的多个视频有助于在表象人格预测中达到更好的效果。这些vloggers在YouTube上发布vlogs长达3~6年。他们为每个视频收集了21个印象变量,包括感知的人格、情绪、技能和专业知识。

Teijeiro等[53]研究了一项关于自动提取面部表情与YouTube vlogs中大五人格特质印象之间的联系。他们使用计算机表情识别工具箱(computer expression recognition toolbox,CERT)系统来描述对话式vlogs的用户特征。从即时识别的面部表情类别的CERT时间信号中,他们提出采用4组行为特征线索来描述人脸的统计和动态特征。这些特征线索首先被用于相关性分析,以评估每个面部表情与从观看vlogs的人群参与者获得的大五人格特质印象的相关性,同时也作为自动人格特质预测的特征。最后,利用SVM分类器来对人格特质进行预测。实验结果表明,当多个面部表情特征线索与一定数量的大五人格特质显著相关时,它们只能明显地预测外向性的特定特征。

3.2.2 深度视觉特征

目前,深度学习方法广泛用于人格识别领域,用以提取高层次的视觉特征,常用的有CNN、RNN、LSTM等方法。

1)静态图像:对于静态图像的深度特征提取,Zhang等[20]提出采用CNN用于实现含有 186个人的 186 幅图像样本的人格自动识别,用人脸来评估一个人的人格特质和智力。他们最初建立了一个由面部照片、人格测量和智力测量组成的数据集,然后提出了一种端到端的CNN模型,通过微调预先训练好的VGG-face模型来共同预测人格特质和智力。他们旨在探讨自我报告的人格特质和智力是否可以从面部图像中共同测量。实验结果表明,CNN特征在预测人格特质方面优于传统的人工特征。

Ventura等[54]使用一种描述符聚合网络(descriptor aggregation networks,DAN)[55]来学习面部特征。DAN是改进了的传统CNN模型(首先删除了全连接层,然后对最后一个卷积层的深度描述符通过平均池化和最大池化进行聚合,最后级联到最终的图像表示中进行回归)。他们利用类激活图(class activation map,CAM)进行可视化,从而为理解CNN模型成功学习与用户人格特质相关的面部特征(如眼睛、鼻子、眉毛和嘴巴)提供了可能的解释。

2)动态视频序列:对于动态视频序列的深度特征提取,Gürpnar等[56]通过微调一个预先训练好的VGG-19网络来提取人脸面部表情以及周围场景的深层特征,以便进行人格特质分析。然后,将表示面部表情和场景的视觉特征进行合并,输入到核极限学习机(kernel extreme learning machine,ELM)回归器中,并在ChaLearn First Impression V1数据集上实现大五人格特质的预测。

Ventura等[54]从模型可解释性的角度研究了CNN模型在人格自动预测方面表现很好的原因。他们利用当前关于CNN模型可解释性的技术(如可视化),结合人脸检测和动作单元(action unit,AUs)识别系统进行定量研究。实验结果表明:1)人脸为人格特质预测提供了大部分的判别特征信息;2) CNNs表征主要分析关键的人脸区域,如眼睛、鼻子和嘴巴等;3)部分动作单元对面部特征的预测有一些影响。

Beyan等[57]通过从来自视频中的关键动态图像(主要用于动作、活动和手势识别)中提取的基于深度视觉活动(visual activity,VA)的特征来感知人格特质。由于关键动态图像带有更多的判别信息,因此他们构建多个动态图像,通过采用CNN+LSTM学习长期视觉活动和检测时空显著性来确定关键动态图像,一旦提取了基于视觉活动的非语言特征,就使用基于协方差的特征编码方法,最后得到的特征向量利用SVM分类器来对人格特质进行预测。

4 融合听视觉的多模态人格识别

近年来,尽管针对单一模态信息(听觉或视觉)的自动人格识别方面的研究取得了一些研究成果,但在实际生活中人类自身的人格判别或分析往往都是多模态的。因此,仅仅通过单一模态信息来分析人格存在诸多的局限性,如识别性能还不尽如人意,识别结果的鲁棒性得不到保证。从2016年开始,研究者开始尝试在融合听觉、视觉等信息的视频序列中实现多模态人格识别,研究重点侧重于听觉和视觉方面的人格特征提取,以及多模态信息融合方法。这部分将重点介绍人格识别中的多模态信息融合方法。

在人格识别任务中,面向听视觉信息的多模态融合方法一般分为3种类型[58-59]:特征层(feature-level)融合、决策层(decision-level)融合、模型层(model-level)融合。

1)特征层融合:该方法是一种比较简单的方法,计算复杂程度相对较低。它只需要将提取的听觉特征和视觉特征直接串联起来构成一个总的特征向量,所以特征层融合也称为早期融合(early fusion,EF)。不过,特征层融合可能会显著增加级联特征向量的维数,容易出现维数灾难问题。

Güçlütürk等[60]提出采用一种端到端的深度残差网络来学习高层次的听觉语音特征和视觉人脸图像特征,然后在特征层(feature-level)实现多模态的大五人格识别。该方法在包含10 000个视频样本的ChaLearn First Impression V1挑战数据集上取得了较好的效果。Subramaniam等[61]采用两种端到端的深度学习模型(3D CNN和LSTM)进行视听第一印象分析。(他们利用3D CNN对人脸对齐图像进行视觉特征提取。而对于听觉信息,他们提取过零率、能量、MFCCs等手工特征的均值和标准差等统计量作为听觉特征参数。然后,他们将提取的听视觉特征在特征层进行级联,然后使用LSTM网络进行时间建模,完成最终的人格特质预测任务。

Wei等[62]提出一种从短视频序列中进行深度特征学习的解决方案。为了从听视觉模态中提取丰富的信息,采用深度双峰回归(deep double peak regression,DBR)方法来完成听视觉特征提取任务。在DBR中,对于视觉模态,他们使用DAN模型,用于提取重要的视觉特征信息,然后通过端到端训练获得五大人格特质预测。对于听觉模态,他们从每个原始的以人为中心的视频中提取MFCC和对数滤波器组(log filter bank,logfbank)等听觉特征,基于这些提取的听觉特征,采用线性回归方法实现人格预测。为了更好地结合两种模态的互补信息,他们采用特征层融合方法来整合这些预测的回归分数,以便获得最佳人格预测性能。

Güçlütürk等[63]使用一种深度残差网络提取视听特征,采用skip-thought的向量模型提取文本(音频转录)特征。然后将提取的音频、视觉和文本特征在特征层面进行多模态大五人格特质分析和工作面试推荐。Escalante等[65]提出从视频序列中融合听觉、视觉和文本3个模态信息用于研究第一印象分析的可解释性。该方法采用ResNet18模型用于提取听视觉特征,而采用skip-thought向量模型提取文本特征,最后,在特征层上融合3个模态提取的特征用于多模态第一印象的分析。

2)决策层融合:该方法首先对每个模态先独立建模,然后采用某种决策融合规则将单模态得到的结果进行组合,并得到最终的融合结果。因此,决策层融合也称为后期融合(Late Fusion,LF)。决策层融合认为不同的模态是相互独立的,但它未能利用特征层模式之间的相关性。分数层(score-level)融合是决策层融合的一种变体。它通过组合各个类别分数来实现的,这些分数代表了一个样本属于各种类别的概率,可以用于人格识别。而决策层融合则是通过结合若干预测性类别标签来实现。

Celiktutan等[64]探讨了人格印象如何随时间和情境环境的变化而波动。首先提取听视觉特征(如面部、头部、身体运动等),然后采用双向LSTM网络对连续生成的注释与提取特征之间的时间关系进行建模。最后在决策层上将听觉和视觉回归预测模型的输出结果相结合,从而实现人格的预测。Gorbova等[65-66]提出一种基于短视频的视觉、听觉和文本(词汇)信息的自动人格预测方法。该方法提取的手工特征包括声学LLD特征(MFCCs、说话速率等)、面部动作单元特征、以及消极和积极的词汇得分。该系统采用加权平均策略,将3种模态取得的结果在决策层加以融合,获取最后的人格预测结果。

Zhang等[67-68]提出采用语音信号的MFCCs特征作为听觉特征,而视觉特征采用DAN模型提取,然后在特征层(feature-level)和决策层(decision-level)上融合听视觉两个模态。在包含 3 000个人的 10 000 个短视频的ChaLearn First Impression V1挑战数据集上的实验结果表明,该方法能够取得较好的多模态人格识别结果。Sarkar等[71]使用logistic回归模型,结合听视觉、语言内容和情绪特征等进行大五人格特质分类。实验结果表明,使用不同的特征组合可以更好地预测不同的人格特质。

Gürpinar等[69]使用预先训练的VGG模型从视觉图像中提取面部表情和场景信息,而从听觉语音信号中提取INTERSPEECH-2009特征,然后分别采用核极限学习机(Kernel ELM)实现人格预测,最后采用分数层(score-level)方法融合这些不同模态信息的人格预测结果。

3)模型层融合:该方法作为特征层融合和决策层融合的一种折中方案,近年来也被用于人格识别。这种方法的目的是在考虑模态间相关性的同时,分别实现对每个模态的建模。它可以考虑不同模态之间的相互关联性。

Principi等[70]研究了影响人格感知不同可能因素源的影响,包括来自面部表情、吸引力、年龄、性别和种族等因素。他们提出了一种多模态深度神经网络模型的听视觉人格识别方法。该方法将原始的听觉和视觉信息相结合,用于测试特定属性模型(attribute-specific models),在大五人格特质预测方面的性能。对于视觉特征提取,他们采用了在ImageNet数据上预先训练好的ResNet-50网络,在每个视频帧上获取高层次的视觉特征表示。对于听觉特征提取,采用类似ResNet-18网络这样的14层一维卷积神经网络(1D CNN)从原始语音频谱信号学习高层次的听觉特征表示。对于视频级(video-level)属性特征的提取,采用VGG-16网络从视频图像中学习出面部表情、吸引力、年龄、性别和种族等因素各自对应的特征向量。为了有效融合各种提取的特征,采用两步来实现:1)采用一个全连接层在模型层上学习所有提取的视频级属性特征串联之后的联合特征表示,同时降低其特征维数;2)将学习到的联合特征表示与之前提取的听觉、视觉特征相串联,输入到一个全连接层实现大五人格特质预测。

Kampman等[71]提出了一种端到端的融合听觉、视觉和文本三模态深度学习模型来预测大五人格特质。对于听觉通道,为将幅值平方的原始音频波形及其能量分量输入到一个包含4个卷积层和一个全局平均池化层的CNN网络用于音频特征提取。对于视觉通道,选取视频随机帧图像微调预训练好的VGG-16模型用于视频特征提取。对于文本通道,采用“Word2vec”字嵌入(Word embedding)模型的输出作为文本CNN网络的输入,用于文本特征提取。最后,在决策层和模型层上实现听觉、视觉和文本模式的融合。决策层融合采用了投票方法,而模型层融合是通过串联每个模态CNN的输出特征输入到一个包含两个全连接层的网络,用于学习三模态输入数据的联合特征表示。

5 结束语

人格识别是一个涉及多学科交叉的研究课题,其中基于听视觉信息的人格识别近年来成为了计算机视觉领域的一个研究热点。本文详细介绍了国内外现有的近年来用于人格识别的人格类型表示理论和相关数据集,并重点阐述了近年来新发展起来的深度学习技术在人格特征提取方面的应用。同时,也对人格识别中的多模态信息融合方法做了整理和归纳,并给出了该领域未来的发展趋势。虽然,人格识别研究已经取得了一些成果,但在许多方面还存在一些挑战。例如,用于人格识别的现有建设的数据集规模都不大,还不能很好地满足现有依靠大数据驱动的深度学习技术的训练需求,未来可针对多模态人格识别方法在跨数据集环境下的使用进行研究。另外,人格识别是多模态的,目前很少有研究者关注生理信号与现有听觉、视觉等模态信号相结合的多模态人格识别方法,未来如何将生理信号和其他模态结合是一个新的研究方向。此外,现有研究也很少考虑采用被观察者与人格分析更多的信息来进行自动人格识别,如考虑不同目标人群的文化相似性或者差异性等背景信息,以改善人格识别模型的性能。

猜你喜欢

人格特质特征提取人格
人格特质对企业员工时间侵占行为的影响
共产党人的人格力量
远去的平凡背影,光辉的伟大人格
选择一张神奇的行为艺术照片,秒测你的真实人格特质
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
论君子人格的养成
人格特质对抑制表现的预测研究
人格特质与脑外伤偏瘫患者残障接受度的相关性研究
基于MED和循环域解调的多故障特征提取