APP下载

基于图文融合的情感分析研究综述

2021-03-07孟祥瑞杨文忠

计算机应用 2021年2期
关键词:图文模态图像

孟祥瑞,杨文忠*,王 婷

(1.新疆大学信息科学与工程学院,乌鲁木齐 830046;2.新疆大学软件学院,乌鲁木齐 830046)

(*通信作者电子邮箱ywz_xy@163.com)

0 引言

社交媒体的飞速发展导致用户信息逐渐增加,用户所发表的内容也逐渐呈现多元化的趋势,数据已经不再是单一的文本形式,而是转化为图片与短文本这种多模态形式,例如:Twitter中的图文博客、贴吧中的图文信息、淘宝评论中的图文信息等。这些图文结合的多模态数据为情感分析方面的研究提供了新角度,挖掘用户所发图文的情感成为新的研究重点。同时,由于图文情感分析研究时间较短、数据集较少等问题,也使得图文情感分析存在一定的困难与挑战。

在早期的情感研究中,主要研究的是较为单一的文本或者图像,采用的方法主要是传统的机器学习分类算法[1],例如:K近邻算法、支持向量机、最大熵分类器和贝叶斯分类器等。然而近年来,深度学习体现出较为优异的学习表现,越来越多的研究人员开始倾向使用深度神经网络来学习文本或者图像的特征表示,用于情感分类[2-5];但是具有单一模态信息量不足,并且容易受到其他因素干扰的问题,例如:图片含义或文字语义模糊等情况。鉴于社交平台中图片与文本存在一定的互补性,图片与文本融合的研究逐渐成为当前的研究热点。蔡国永等[6]采用了基于卷积神经网络的情感分析方法,分别进行文本、图片、图文融合的情感分析,比较图文单独模态与图文多模态的实验效果,实验证明图像特征与文本特征具有联系,文本与图像也具有一定的互补作用。

图文融合的情感分析是多模态情感分析的子领域,针对多模态情感分析,最早研究可以追溯至2011 年。阳锋等[7]提出了一种观点挖掘原型系统(MicroblogItem Crawling and Analyzing,MICA),这是一个面向微博数据流的观点挖掘原型系统,利用微博数据爬取模块对数据(文本、图片、共享视频等)进行下载,构建新的情感词典,其中图片特征提取主要采用尺度不变特征转换(Scale-Invariant Feature Transform,SIFT)算法。Morency 等[8]首次提出三模态情感分析任务,自动提取文本、视频、语音的特征,集成特征后得出任务结果。

要对图文融合的内容进行情感分析,首要的任务就是提取文本特征与图像特征,然后依据图文融合策略及方法,判断情感类型,而情感类型一般会分为积极、中性和消极三类。目前,在情感计算领域中的图文融合情感分析研究主要是集中于图文信息融合与图文相关性的融合[9]。常见的融合策略可以划分为三种:特征层融合策略、决策层融合策略和一致性回归融合策略。

情感主要包括图片、文本、语音、视频、面部表情等多种模态,鉴于当前主流社交平台主要集中于文本与图片的发布,所以本文重点介绍这两者的特征提取方法与融合方法,并从以下四个方面进行综述:图文分析数据库、图文情感特征提取技术、图文特征融合方式以及总结与展望。

1 图文情感分析数据库

在国内外基于图文的多模态情感数据集一般是来源于网络爬虫或者人为制作,对于科研方面仍是半公开或者不公开,导致研究人员使用的数据库一般为自己爬取建立的,创建过程耗费时间。本章主要介绍当前应用的几个基于图文的情感分析数据库。

1.1 Flickr数据集

文献[10]中公开了带有标注的Flickr 图像ID,标注为积极、消极、中性三种词性,Flickr 提供了应用程序接口(Application Programming Interface,API),通过ID 可以获得相应的元数据,例如:图像的描述、上传日期、标签等。同时,文献[10]中还提出了Instagram 数据集,使用SentiWordNET 中的每一个情感词作为查询关键字,可以抓取一组图像,图像总数为12 万张,该数据集更多地包含了用户的日常生活图像,其中最常用的词为:“love”“like”“life”“day”等。文献[11]使用公开的ID 在Flickr 网站中可以爬取6 万余张图像及其对应的描述、上传日期、标签等。

1.2 VCGⅠ及VCGⅡ数据集

VCGⅠ及VCGⅡ数据集[12]主要是利用不同的情感关键词在中国视觉网站上建造的数据集。VCGⅠ数据集是利用视觉情感本体库(Visual Sentiment Ontology,VSO)中的形容词-名词对(Adjective Noun Pairs,ANP)作为情感的关键词爬取数据,其中,ANP 的数量为3 244,爬取了38 363 条图像-文本对。VCGⅡ数据集是从3 244 个ANP 中随机选择300 个ANP 作为情感关键词爬取数据,爬取了37 158条图像-文本对。

1.3 MVSO数据集

文献[13]主要收集当前流行的社交多媒体平台Yahoo 数据,构成多语言视觉情感本体(Multilingual Visual Sentiment Ontology,MVSO),类似于VSO 数据集,收集2014 年11 月至2015 年2 月的公共数据。主要选择12 种语言,分别为:阿拉伯语、汉语、荷兰语、英语、法语、德语、意大利语、波斯语、波兰语、俄语、西班牙语和土耳其语。MVSO 主要由15 600 个概念构成,这些概念同图像中表达的情感息息相关。这些概念主要是以ANP 的形式进行定义,利用MVSO 所提供的情感分数大于1 的ANP 作为关键词,社交网站中爬取了75 516 条图像及其所对应的标题、描述与标签,其中英文数据集称为MVSOEN数据集。

1.4 MVSA数据集

文献[14]引入了多视图情感分析数据集(Multi-View Sentiment Analysis,MVSA),采用了一个公共的流媒体Twitter API(Twitter4J),为了收集具有代表性的推文,研究人员使用了406 个情感词汇对这些推文进行了过滤。MVSA 数据集主要包括一组从Twitter中收集的带有手动注释的图像-文本对,可以作为单视图情感分析与多视图情感分析的有效基准。MVSA 数据集中有两种独立的Twitter 数据:一种为MVSASingle,包含5 129 条Twitter 图像-文本数据对,每条数据对都有对应的情感标注,标注主要分为积极、消极、中立三类;另一种为MVSA-Multi,包含19 600 条图像-文本数据对,每条数据有3 个互相独立的情感标注,来自三名不同的标注者。在文献[15]中,采用投票方式综合MVSA-Multi 中每条Twitter 的三条标注,每条得出一个总标注。

1.5 Yelp数据集

文献[16]使用来自Yelp.com 中关于食品和餐馆的在线评论数据集,主要涵盖美国的5 个主要城市,包括:波士顿(Boston,BO)、芝加哥(Chicago,CH)、洛杉矶(Los Angeles,LA)、纽约(New York,NY)和旧金山(San Francisco,SF)。统计数据如表1 所示,其中:洛杉矶评论数是最多的,有最多的文件和图像;波士顿评论数是最少的。然而,就句子数量(#s)和单词数量(#w)而言,这5 个城市的文档长度非常相似。该数据集总共有超过4.4万条评论,其中包括24.4万张图片,每条数据至少有3幅图像。

1.6 Multi-ZOL数据集

Multi-ZOL 数据集[17]收集整理了IT 信息和商业门户网站ZOL.com 上的关于手机的评论。原始数据有12 587 条评论(7 359 条单模态评论,5 288 条多模态评论),覆盖114 个品牌和1 318 种手机。其中的5 288 多模态评论构成了Multi-ZOL数据集。在这个数据集中,每条多模态数据包含1 个文本内容、1个图像集,以及至少1个但不超过6个评价方面。这6个方面分别是性价比、性能配置、电池寿命、外观与感觉、拍摄效果、屏幕。总共得到28 469 个方面,对于每个方面,都有一个从1 到10 的情感得分。Twitter-15 和Twitter-17 是包含文本和文本对应图片的多模态数据集,数据集标注了目标实体及对其图文中表达的情感倾向。整个的数据规模是Twitter-15 有5 338条带图片推文,Twitter-17有5 972条带图片推文,情感标注为三分类。

1.7 基于文本与表情的Twitter数据集

文献[18]中使用标记数据主要来自Prettenhofer 和Stein创建的Amazon review 数据集。该数据集具有代表性,包含四种语言:英语、日语、法语、德语。对于每种语言和领域,该数据集包含1 000 条正面评论与1 000 条负面评论。同时,提取带有表情符号的推文[19],用来学习基于表情符号的句子表示。对于每种语言,提取包含该语言中使用的前64 个表情符号的推文,为每个独特的表情符号创建单独的标签,使得表情符号预测成为一个单标签的分类任务。

1.8 Task-4数据集

文献[20]中创建了Task-4 数据集,收集时间为2015 年10月至12 月的推文。主要使用公共流媒体Twitter API 来下载推特数据,然后手动筛选产生的数据,以获得一组200 个有意义的主题,每个主题至少包含100 条数据。数据处理过程主要是排除了一些难以理解、含糊不清的话题(比如巴塞罗那,它既是一个城市的名字,也是一个运动队的名字),或者过于笼统的话题(比如巴黎,它是一个大城市的名字);然后,丢弃那些仅仅提及某个主题但实际上与该主题无关的数据。Task-4 数据集主要包括四个部分:TRAIN(用于培训模型)、DEV(用于调优模型)、DEVTEST(用于开发时间评估)和TEST(用于官方评估)。前三个数据集使用Amazon 的Mechanical Turk进行注释,而测试数据集则在CrowdFlower上进行注释。

2 文本及图片的情感分析

2.1 文本情感分析

传统的提取情感特征的方法是应用情感词典,基于情感知识构建情感词典,对文本的情感极性进行判断,其中,大部分情感词典是人为构建的。Whissell[21]要求148名人员用5个附加单词对相应术语进行描述,如:数学、电视等,然后同情感词典中的情感词进行匹配。Whissell[22]对原本构建的情感词典进行更新,加入第三等级维度(图像),增加了情感词典的适用范围。李寿山等[23]利用英文情感词典,借助翻译系统构建了中文情感词典。王志涛[24]等提出了基于词典及规则集的微博情感分析方法,使用40 余万条的微博数据构建情感词典,对于基础情感词典资源进行扩展,将表情符号添加为语义信息,为情感分析提供帮助。Cai等[25]提出了一个三层的情感词典,可以将情感词同其对应的实体联系在一起,减少情感词的多重含义,主要使用一个叠加混合模型支持向量机(Support Vector Machine,SVM)与梯度提升树(Gradient Boosting Decision Tree,GBDT)相结合,克服二者自身的缺点,通过实验发现,混合模型的效果优于单模型效果。栗雨晴等[26]使用微博及现有的知识库构建了双语情感词典,提高分类器的性能,主要提出了基于半监督高斯混合模型以及K近邻算法的情感分类;实验结果表明,提出的分类方法准确率高于传统的分类方法。Xu等[27]构建了一个扩展的情感词典,该词典主要包含基本情感词、领域情感词及多义情感词,提高了情感分析的准确性;使用朴素贝叶斯(Naïve Bayesian,NB)分类器确定一词多义的位置,得出对应的情感值;利用扩展的情感词典与情感评分规则,实现文本的情感分类。

基于机器学习的文本情感分析[28]主要是人工提取文本特征,然后由计算机按照特定的算法进行文本处理与情感分类。这种方法具有两个方面的优势:第一,能够减少研究人员的工作负担、减少非理性的判断;第二,能够根据数据库的变化对词库不断进行更新。杨爽等[29]提出了一种基于SVM 多特征融合的情感五级分类方法,从词性特征、情感特征、句式特征、语义特征四个方面,提取动词、名词、情感词、否定词等14 个特征,实现非常正面、正面、中立、负面、非常负面五级的分类。Pang等[30]以电影评论为数据,使用三种机器学习方法(NB、最大熵分类、SVM)对其进行情感分类,采用一元模型进行特征的构建,进行篇章级的情感分类判定,实验结果表示SVM 和NB具有较好的情感分类效果。Kamal等[31]提出了一个基于特征的意见挖掘与情感分析系统,丰富了自然语言处理的特征集,并将这些特征进行有效组合,生成了一个词级的情感分析系统,实现了对不同电子产品中用户评价的情感极性的划分。Rong 等[32]基于文本文档的高维特性,采用自编码器进行降维与特征提取,提出了一种基于自编码器的bagging 预测体系结构,在数据集实验中具有性能的提升。Dai等[33]通过增加权重突出情感特征,使用bagging来构造不同特征空间上的分类器,将分类器组合成为一个聚合分类器,提高了情感分类的性能。

基于深度学习的文本情感分析主要是通过构建网络模拟人脑神经系统,对文本进行特征提取、自动化学习与模型优化,最后进行情感分析,能提升文本情感分析的准确性。神经网络的模型主要使用词嵌入技术,例如:使用Word2Vec 将人类语言转化成机器语言[34]。Tang 等[35]提出学习情感特定词嵌入模型解决词表示只模拟句法环境而忽略文本感情的问题,开发了三种神经网络,有效地将文本的情感极性纳入到损失函数中。为了获得大规模的训练语料库,从大量正向情感和负向情感中收集远距离监督的推文,从推文中学习情感特定词嵌入模型。将情感特定词嵌入(Sentiment-Specific Word Embedding,SSWE)应用到Twitter 情感分析数据集中,实验结果表明,在性能最好的系统中,SSWE 功能与手工特征的功能具有可比性;将SSWE 同现有的特征集进行连接,能够进一步提升性能。Kim[36]提出了一系列使用卷积神经网络(Convolutional Neural Network,CNN)在预先训练的词向量上训练句子级分类任务的方法,使用简单CNN、静态CNN、非静态CNN 和多通道CNN 在数据集上进行实验,其中使用静态CNN、非静态CNN 和多通道CNN 在部分数据集上能够取得很好的实验结果。Shin等[37]提出了几种有效地将词嵌入和注意力机制整合到CNN 中进行情感分析的方法,这些方法可以提高传统CNN 模型的准确率、稳定性和效率,是具有健壮性的集成学习方法。Li 等[38]为了实现文本情感的多分类,提出了一种基于长短时记忆(Long Short-Term Memory,LSTM)的循环神经网络(Recurrent Neural Network,RNN)语言模型,该模型能有效地获取完整的序列信息,能够更好地分析长句的情感;实验结果表明,该方法相较传统的RNN 具有更高的准确率和召回率。罗帆等[39]提出一种结合RNN 和CNN 的层次化网络(Hierarchical RNN-CNN,H-RNN-CNN)模型,将文本的句子作为中间层,改善了文本过长带来的信息丢失问题。周泳东等[40]为解决在文本情感分析的任务中传统CNN 没有考虑句子结构和过度依赖所输入的词向量的问题,提出了一种基于特征融合的分段CNN(Piecewise Features-CNN,PF-CNN)模型。同传统的文本CNN 相比,PF-CNN 模型在情感分析任务上的准确率、召回率和F1 值等指标都有显著提升。Graves等[41]提出双向长短期记忆(Bi-Long Short-Term Memory,Bi-LSTM)网络以及一个改进的LSTM学习算法的全梯度版本,主要发现双向网络优于单向网络,且LSTM 网络比标准RNN 和有时间窗的多层感知机(Multi-Layer Perceptron,MLP)网络更快、更准确,实验表明Bi-LSTM 网络是一种有效利用上下文信息的体系结构。Hyun 等[42]提出了针对目标层次情感分析(Target-Level Sentiment Analysis,TLSA)任务相关的一种依赖于目标的容量神经网络(Target-dependent Convolutional Neural Network,TCNN)。TCNN 主要是利用目标词与邻近词之间的距离信息来了解每个词对目标词的重要性,能在单目标数据集和多目标数据集上都获得较好的性能。

2.2 图片情感分析

在图片情感分析中,一般是基于图片整体的视觉特征,从底层视觉特征到高级语义的映射,大致可以分为三种:基于传统分析方法、基于图片中层语义的表达以及基于深度学习技术。

早期图片情感分析主要关注图片的底层客观视觉特征,使用机器学习技术对图片情感进行分类,其中,底层特征主要包括:颜色特征、纹理特征以及形状轮廓特征。Machajdik等[43]提出了一些方法提取和组合代表图像情感内容的底层特征,并将其用于图像的情感分类,这些方法主要利用心理学和艺术理论中的理论和经验概念来提取具有情感表达的艺术作品领域特有的图像特征,将Tamura 纹理特征、基于小波变换的纹理特征以及灰度共生矩阵应用到了情感分类中,实验结果表明在国际情感图片系统(International Affective Picture System,IAPS)上,与现有的艺术作品相比,分类结果得到了改善。Jia 等[44]对颜色的基本属性进行衡量,例如:饱和度、色调、颜色、明亮度等,利用图像的基础特征,使用半监督学习框架自动预测艺术作品的情感。Yanulevskaya 等[45]将颜色空间量化为343种不同的颜色,将每个颜色通道均匀地划分为7个不同的级别,进而将色彩模型描述映射到可视单词,表达艺术化作品的情感;同时,也使用SIFT 描述符捕获图像中的轮廓、纹理及边缘,并使用K-means 聚类创建可视化词汇表。李娉婷等[46]提出了一种基于颜色特征的家居设计图情感分类方法,通过人们对于颜色的理解与感知,建立设计图颜色特征同语义的关系模型,基于径向基函数(Radial Basis Function,RBF)网络分类器对家居设计图进行情感分类。王上飞等[47]抽取图像的颜色与形状作为图像的感性特征,采用RBF 神经网络,由特征空间映射到情感空间,在情感空间内实现图像的感性检索。Yanulevskaya 等[48]利用传统的场景描述符Wiccest、Gabor特征,使用具有RBF的SVM 的框架用于情感类别的监督学习。Lu 等[49]研究了自然图像的形状特征对人类情感的影响,例如:线条的圆度、棱角、简单性、复杂性等特征都被认为是影响人类情感反应的重要因素。该方法能够对视觉形状与情感间的相关性进行系统分析,强烈或简单的圆或角可以预测图像的情感极性。

由于图片底层特征与高层情感语义之间具有较大的距离,所以很多研究人员开始逐渐尝试构建中层语义来表达图片情感[50]。Borth 等[12]提出将形容词-名词对(Adjective Noun Pairs,ANP)作为情感中层语义。同时,文献[12]中也提出了一种新的视觉概念检测器库SentiBank,利用彩色直方图、局部二值模式(Local Binary Pattern,LBP)描述符、场景特征描述符等特征来进行视觉情感分类,可用于检测图像中存在的1 200 个ANP;实验表明,该方法在检测的精度与准确度方面均有较大的提升。Zhao 等[51]使用特征描述符、方向梯度直方图并结合手工特征,将多个图合并在一个正则化框架中,学习每个图的最优权值,使不同特征互补,进而更好地应用在情感图像检索中。Chen 等[52]提出了基于对象的视觉建模,从图片中提取情感相关信息;该方法使用ANP 的方式进行图像标记,将抽象的情感表达具体化。

随着深度学习技术的发展与进步,在图片分类、图片识别[53]以及图片检索[54]等方面均有了重大进展。2006 年,Hinton 教授[55]提出了深度信念网络(Deep Belief Network,DBN),使用多个隐层神经网络训练原始数据,将数据中不易理解的高维数据转化为容易理解的低维数据,对于数据特征能够更好地理解,进而应用在数字识别分类任务中。Keyvanrad 等[56]在DBN的基础上对受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)的采样方法进行改进,利用数据集创建了一个强大的生成模型,能获取数据中的精英样本,更准确地计算训练数据的对数概率梯度,减小分类的错误率。Zhou 等[57]基于DBN 提出了判别深度信念网络(Discriminative Deep Belief Network,DDBN),该方法通过贪婪逐层无监督学习,利用标记数据和大量的未标记数据,初步确定了深层体系结构的参数空间,然后通过基于梯度下降的监督学习,利用指数损失函数对整个深度网络进行微调,以最大限度地提高标记数据的可分离性。实验结果表明,尤其在困难的分类任务中,DDBN 的性能较好。Krizhevsky 等[58]使用CNN 处理图像数据,也取得了较好实验效果。CNN 通过反向传播(Back Propagation,BP)算法,能够自动从大量的强标记数据中学习到同任务有关的特征,比手工标记特征更具有鲁棒性。Chen 等[59]提出了一种基于CNN 的视觉情感概念分类法,从网络照片标签中发现ANP,再对图像情感进行有效统计,并使用基于深度学习框架Caffe 训练的深度卷积神经网络模型,实验结果表示该方法在标注精度和检索性能上都有显著提高。You 等[60]提出了一种逐步训练及域转移的深度神经网络,称为脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN),使用两层卷积层与四个全连接层,实验结果也验证了PCNN 模型的有效性。Mittal 等[61]介绍了在图像情感分析中的DNN、CNN、基于区域的CNN(Regional CNN,R-CNN)和Fast R-CNN,并研究了它们的适应性与局限性。曹建芳等[62]以自然图像为例,提出了一种基于Adaboost-BP的图像情感分析方法,通过几何模型(OpenCasCade,OCC)对图片的情感进行描述,使用Adaboost算法,结合BP 神经网络的弱分类器,构成了一个强分类器,也取得了良好的实验效果。蔡国永等[63]提出一种图像整体与局部区域嵌入的图像情感分析方法,利用对象探测模型对包含对象的区域进行定位,通过深度神经网络对定位区域的情感特征进行表示,最后使用整体特征与局部特征对情感分类器进行训练,并预测图像的情感极性;实验结果表明,基于图像整体与局部区域嵌入的情感分析方法优于基于图像整体或局部区域嵌入的情感分析方法。

3 图文特征融合

在社交媒体中,文本与图像共同出现的情况和数据逐渐增加,文本与图像的组合成为情感分析又一重要数据源。但是,当前关于社交媒体情感分析主要是基于图片或者文本,尤其文本情感分析,研究人员较多,这就导致图片与文本的融合分析必要性逐渐增强。在基于图文的情感分析领域,图片与文本需要进行融合,融合方式主要分为特征层融合、决策层融合和一致性回归融合三种,如图1所示。

3.1 特征层融合

特征层融合主要是指对多源传感器不同的信息(文本、表情、图像等)进行特征提取,得到i个特征,分别表示为特征v1,v2,…,vi,然后对多个传感器的信息特征直接连接或者加权连接,对特征进行结合。特征层融合属于图文特征融合的中间层,对信息进行有效压缩,为最后的情感特征分类做准备。

在特征层融合中,首先,Wang 等[64]提出了一种新的跨媒体词袋模型(Cross-media Bag-of-words Model,CBM),使用一个统一的词包对将微博的文本与图像进行表示,使用逻辑回归对微博情感进行分析。实验结果显示,基于图文方法的准确率相较于基于文本方法的准确率提高了4 个百分点。Zhang等[65]使用Bi-gram方法采集文本特征,使用互信息、信息增益等方法进行选择特征,图像特征选择主要是基于图像的颜色与纹理特征。基于文本和图像特征的融合,提出了一种新的基于相似度的邻域分类器,对文本-图像的情感进行二分类。同样为二分类,Cai 等[66]提出了一种基于CNN 的多媒体情感分析方法,使用两个独立的CNN 分别学习文本特征与图像特征,将学习到的特征作为Multi-CNN 架构的输入,挖掘文本与图像之间的内在联系。Niu 等[67]将不同类型的数据转换成特征向量,采用词袋模型(Bag-of-Words,BOW)训练文本特征,采用SIFT 训练图像特征,采用深度玻尔兹曼机(Deep Boltzmann Machine,DBM)训练融合特征,最后使用SVM 将文本、图像、融合的特征进行融合与学习,进而进行情感分析。然后,基于BOW、连续词袋模型(Continuous-Bag-Of-Words,CBOW),Baecchi 等[68]对CBOW 模型加以扩展,提出了一种新的连续词袋学习表示模型CBOW-LR(CBOW-Learning Representation),不仅可以学习向量表示,还可以学习情感极性分类器。与CBOW 模型相比,CBOW-LR模型具有更高的极性分类精度与准确性,在处理句法和语义的相似性时有很好的表现。CBOW-LR 模型是具有鲁棒视觉特征的非监督学习(具有神经网络),视觉特征可从部分观察中恢复,这些观察可能是由于遮挡或噪声或大量修改图像造成的。同时,CBOWLR 模型已经扩展到使用去噪的自动编码器来处理视觉信息。连续词袋去噪自动编码器学习表示模型(CBOW-Denoising Autoencoder-Learning Representation,CBOW-DA-LR)以无监督和半监督的方式工作,学习文本和图像表示,以及包含图像的Tweet 情绪极性分类器,具有很好的实验效果。Ortis 等[69]提取和使用一个客观的文字描述图像自动提取的视觉内容,该方法基于视觉特征和文本特征的贡献,定义了多模态嵌入空间;然后,在得到的嵌入空间的表象上训练一个监督SVM来推断情绪极性,所提出的客观文本的开发有助于超越主观的情绪极性估计。

金志刚等[70]提出了一种基于CNN 的多维特征微博情感分析模型,使用词向量计算文本的语义特征,集合表情符号所具有的情感特征,利用CNN 挖掘文本特征与情感特征的深层关联,训练相应的情感分类器,提升了情感分类器的性能。该模型使用了BP算法进行训练,采用随机梯度下降算法计算梯度,使用批标准化(Batch Normalization,BN)算法进行正则化处理与归一化处理。刘星[15]提出了一种融合局部语义信息的多模态舆情分析模型,能解决忽略图像局部的高维语义信息等问题。图像特征方面首先使用CNN 进行卷积,采用多示例学习(Multiple Instance Learning,MIL)方法以及目标检测方法(Single Shot MultiBox Detector,SSD)对图像的全局特征与语义特征进行提取,最后将特征输入到Bi-LSTM 以及注意力模型中对图像特征进行提取,文本特征提取方面主要使用CNN与最大池化操作;模型融合过程主要是将图像特征与文本特征进行拼接,输入到全连接层进行决策,最后使用Softmax 得出情感结果。缪裕青等[71]提出了一种图文融合的情感分析方法,该方法主要通过训练词向量模型将文本表示为包含丰富语义信息的词向量,并将其输入到Bi-LSTM 中,训练文本情感分类模型(Word-embedding Bidirectional LSTM,WBLSTM),该方法对大规模数据集上预训练CNN 模型的参数进行迁移,使用全卷积神经网络(Fully Convolutional Neural Network,FCNN)得到训练图片情感分类;最后,根据late fusion 对两个模型进行融合,进行图文情感分析。

Xu等[72]提出一种新的共记忆网络(Co-Memory Network),在情感分析中,模拟视觉信息与文本信息的相互影响,捕捉图像内容与文本词语之间的相互作用,通过迭代的方式提供文本信息寻找图像关键词,通过图像信息来定位文本词语。其中,在图片特征与文本特征提取的过程中,加入了注意力权重,得出文本表示向量与图像表示向量,最后使用softmax 得出情感极性。Truong等[16]提出了利用视觉信息进行情感分析的方法——视觉方面注意网络(Visual aspect attention Network,VistaNet)。该方法具有三层架构,分别是从单词到句子,再到特定图像的文档表示,最后进行综合文档表示,得出情感分析的结果。Nemati[73]等提出了一种混合多通道数据融合方法,采用线性映射,研究结果显示,使用边际Fisher 分析(Marginal Fisher Analysis,MFA)进行特征级视听融合的效果优于交叉模态因素分析(Cross-modal Factor Analysis,CFA)和典型相关分析(Canonical Correlation Analysis,CCA)。

Zhang 等[74]为了获取图像和字幕之间的语义联系,提出了一种同时考虑图像和文字的交叉模态图像情感极性分类方法。该方法将文本内容之间的相关性转换为图像:首先,将图像及其对应的标题发送到一个映射模型中,将其转换为空间中的向量,通过计算最大平均偏差(Maximum Mean Discrepancy,MMD)得到其标签;然后,使用基于类感知注意的门控循环单元(Gated Recurrent Unit,GRU)将分布的表示分配给标签;最后,使用LSTM 对情绪极性进行分类。在Getty Images 数据集和Twitter 1 269 数据集上进行的实验证明了此模型优于基线解决方案。

综上所述,特征层融合中,使用CNN 及注意力机制对于图片的分析会较为精准,能够对图片与文本的信息进行综合考虑;但是,在图片与文本所具有的特征差异问题上,实验效果不够好。这种方法优点是在初期就可以进行融合,后期只需要进行学习与分类即可;缺点则是图文两种模态来自不同的语义空间,在时间维度上和语义维度上具有差异,不能直接合并,难度较大。表2 列举了特征层融合不同模型策略的实验结果。

表2 特征层融合方法的实验结果Tab.2 Experimental results of feature layer fusion methods

3.2 决策层融合

决策层融合主要是提取文本与图像的情感特征vi(i∈N)和vg(g∈N),将每个情感特征分别输入到各自的情感分类器中进行情感分类,得到文本情感分析结果si和图片情感分析结果sg,最后选择合适的融合规则进行决策与融合。

2013 年,Borth 等[12]引入了APN 的概念,引入概念检测库,提供中级的可视化表示。这种基于感知库的情感预测方法在检测精度方面有显著的提升。该研究也为研究者提供一个大型的公共资源,包括一个视觉情感本体以及一个大型检测库。2016 年,Yu 等[75]将训练好的词向量在CNN 上进行文本情感分析,使用DNN 和广义的Dropout 进行图像情感分析,最后将预测的概率进行加权平均取得情感二分类与三分类的结果。蔡国永等[6]提出了一种基于CNN的图文融合媒体的情感分析方法,该方法融合了三个不同文本特征(词语级、短语级、句子级)与图像特征所构建的CNN 模型,将不同的分类结果相加求和,采用多数投票规则得出输出结果,并分析不同表征能力所带来不同的效果,最后实验结果显示,融合三种分类结果的集成分类器分类效果最好。

基于相关数据集,Saini 等[76]设计一个情感识别系统,采用双峰方法,将用户的情绪分为高兴、悲伤与中性,系统可以用来销售用户所喜欢的产品,推荐合适的服务,甚至检测心理健康问题。邓佩等[77]针对传统微博情感分析方法对图片、特殊符号以及上下文信息的忽略而导致的问题,提出了一种基于转移变量的图文融合微博情感分析方法。首先,构建基于转移变量的无监督情感分析模型(Unsupervised Sentiment Analysis Model based on Transition Variable,USAMTV),主要使用分层贝叶斯模型,由微博、情感、主题、词组组成;然后,在该模型中融入了表情符号,引入了主题与上下文信息,能获取文本的情感分布,考虑图片情感浓度对于文本情感分布所产生的影响;最后,对微博整体情感进行计算。

基于多模态注意模型,Huang 等[78]提出一种新的图像-文本情感分析模型,称为深度多模态注意融合模型(Deep Multimodal Attentive Fusion,DMAF)。DMAF 主要利用混合融合框架挖掘图片内容与文本内容的区别与联系,进而进行情感分析。该模型中具有两种独立的单模态注意模型对文本情感与图片情感进行分类;同时提出了一种基于中间融合的多模态注意模型,利用图像与文本之间的特征进行联合并进行情绪分类;最后将文本、图像、文本-图像融合三种注意力模型进行结合,进行情感预测。Xu等[17]提出一种多交互记忆网络(Multi-Interactive Memory Network,MIMN)模型,该模型主要包括两个交互式的模型网络,不仅学习了交叉模态数据所造成的交互影响,还学习了单模态数据所造成的自我影响。该模型利用递归神经网络建立多模态记忆,以掌握文本和图像中的短语类特征;同时,递归记忆网络还可以增强全局记忆抽象的记忆属性。Kumar等[79]提出了一种混合深度学习模型用于实时多模态数据的细粒度情绪预测,模型分别对文本与图像数据进行处理,然后使用决策级多模态融合的方法。Kumar 等[79]使用的CNN-SVM 模型中有四个模块,分别是离散化模块、文本分析模块、图像分析模块和决策模块,实验结果分为非常积极、积极、中性、消极、非常消极五种,模型准确率也得到了提升。

综上所述,决策层融合具有捕获多重相关性的能力。在决策层融合策略中,虽然避免了图文两种模态特征由于本质的不同而对结果带来的干扰,但是对于特征之间的互补关系,无法进行学习。相较于特征层融合,决策层融合更加简单,针对情感结果进行融合即可,具有最优的局部决策结果。但是,可能需要学习所有模态的分类器,提高分析成本。表3 列举了决策层融合不同模型策略的实验结果。

3.3 一致性回归融合

一致性回归融合主要是对图文两种模态的进行相关性分析,输入特征分布的协方差结构,考虑不同模态之间的相关性及其特征分布的差异,以文本vi(i∈N)及图像vg(g∈N)为基础构成文本-图像对。提取图文两种模态的情感特征,将提取的特征输入到构建的回归模型中,模型中一般会加入相关性算法,学习图片与文本的相关性权重,最后进行情感分析。

表3 决策层融合方法的实验结果Tab.3 Experimental results of decision layer fusion methods

首先,由Chen 等[80]提出使用超图结构来组合文本、视觉和表情信息来进行情感预测。他构造的超图捕捉了不同模式下推文的相似性,其中每个顶点代表一个推文,超边由每个模式上的“质心”顶点及其k个最近邻组成;然后学习推文之间的关联得分,用于情感预测。这样,在情感预测中既考虑了模内依赖,也考虑了模间依赖。

基于一致性回归模型与卷积模型,You 等[81]提出了一种跨模态一致性回归(Cross-modality Consistent Regression,CCR)模型,利用大型社交多媒体内容进行情感分析的需要,对CNN 视觉情绪分析模型进行微调,提取图像的视觉特征;然后,训练了一个分布式的段落向量模型来学习图像的相关标题和描述,从而学习文本的特征;最后,对提出的跨模态一致性回归模型进行视觉和文本特征训练,学习最终的情感分类器,进行图文情感分析。Zhang 等[82]采用语义嵌入、情感嵌入以及词汇嵌入三种不同的注意力机制进行文本编码,并将注意向量、LSTM注意力机制与注意力池化三种不同的注意力方式同CNN 模型相结合。该方法研究了词语及其上下文的联系,消除歧义,丰富段落表示。为了提高三种不同注意力CNN 模型的性能,使用CCR 模型和转移学习方法,使用于篇章级的情感分析中,相较于传统的一致性回归模型,提升了图文情感分析的准确性。Chen 等[83]提出了一种弱监督的多模态深度学习(Weakly Supervised Multi-modal Deep Learning,WS-MDL)的鲁棒可伸缩情感预测方案。这种情感预测方案对于CNN 的学习是迭代的,有选择地从低成本的具有噪声的情感标签特征中学习。该方案首先从预训练的CNN 和DCNN模型中计算情感概率分布和多模态语句的一致性;然后,训练一个概率图形模型来区分噪声标签的贡献权值,这些贡献权值被进一步发送回来分别更新CNN和DCNN模型的参数。实验结果显示,该方案在情感预测方面具有较好的效果。

基于多层深度融合,Ji 等[84]提出了一种新的双层多模态超图学习(Bi-layer Multimodal HyperGraph learning,Bi-MHG)算法对模态之间的依赖性问题进行解决。在Bi-MHG 模型中,具有一个两层的结构:第一层结构为推文级超图学习,对推文特征的相关性与推文相关性进行学习,预测推文情绪;第二层结构为特征级超图学习,利用多模态情感词典学习多个模态之间的相关性。该模型突出一种用于Bi-MHG 参数学习的嵌套交替优化方法,实验中证明该模型具有较好的性能。蔡国永等[11]为了解决图文之间语义匹配的问题,提出了一种基于层次化深度关联融合网络模型,能够利用图像的中层语义特征,采用VCG 提取特征、CNN 提取图像中的ANP,使用Bi-LSTM 提取文本特征;最后,两个特征融合主要是基于典型相关分析(CCA)和线性判别分析(Linear Discriminant Analysis,LDA)展开的,使用Multi-DCCA 和Multi-DeepLDA 进行相关性分析与判别性分析,将两个分析结果进行融合,得出情感分析结果。Xu 等[85]提出了一种新的层次深度融合模型来对文本、图像以及社会链接之间的相关性进行探索,该模型可以全面且互补地学习文本、图像与社会链接之间的特征,进而进行有效的情感分析。该模型将文本特征与图像特征输入到一个分层的长短期记忆(Hierarchical LSTM,H-LSTM)神经网络中,将图片与文本不同的语义片段进行结合,学习文本与图像之间的相关性。同时,该模型利用链接信息,将社会图像之间的联系使用加权关系网络进行建模,将每个节点嵌入到一个分布向量中,利用多层感知器MLP 对图像文本特征与节点进行融合,捕获情感预测过程中的模态关联。该模型同CCR、T-LSTM等模型相比,准确性得到了提升。

综上所述,在一致性回归融合模型中,虽然考虑文本与图像情感特征所具有的一致性、图文语义特征,也融合了特种层融合与决策层融合的优点,但是不能够考虑到文本与情感特征之间存在的异性。表4 列举了一致性回归融合不同模型策略的实验结果。

表4 一致性融合方法的实验结果Tab.4 Experimental results of consistent fusion methods

4 总结与展望

随着人工智能的发展与应用,图文情感分析逐渐受到越来越多研究人员的关注,近些年来也取得较大的进展,本文通过对文本情感、图片情感以及图文情感研究现状的认识,总结出当前图文情感分析还存在以下几个问题:1)由于部分数据集是小数据集,虽然考虑了图文信息的差异,但是由于数据集数量不足,对于一些隐藏信息无法进行分析;2)不同用户表述情感的方式不同,在研究过程中,忽略了用户之间存在的差异;3)不同模态之间的交互信息较少,无法充分发挥模式间的互补关系;4)社交媒体的随意性与主观性,会导致图文之间出现互斥问题。总结出其面临的挑战与发展趋势如下:

1)当前图文融合方面的数据集数量较少,数据不完整,数据内容涵盖范围单一,需要更大规模的数据集,提升实验的准确性。

2)对图文数据集进行标注也是当前研究的重要工作之一,但是标注会耗费一定的时间且需要一定的技巧,这就限制了图文情感数据集的建立。因此,使用半监督或者无监督学习来进行情感预测是下一步研究要点。

3)图文特征一般是通过不同的模型获取的,图文特征存在不一致性,如何将两个模态信息互相补充、互为印证,进而建立更完善的图文融合情感分析模型,是当前具有挑战的一个问题。

4)当前研究中,文本语言类型一般为单一的,可以考虑不同的文本语言类型,面向更加广泛的媒体数据。

5)通过图文融合的情感分析数据可见,三分类甚至多分类的情感分析模型实验效果一般,需要进一步研究图片与文本二者的相关性与异性,提升情感分析的准确率。

6)在图文融合的过程中,考虑得更多的是图片与文字,对于信息发布的时间、地点、用户关系并未进行充分考虑,这些信息发布特性对于提升分析的进度具有一定的作用,是图文情感分析的研究方向。

5 结语

本文对图文融合的情感分析进行了综述,包括图文数据集的介绍,文本、图片情感分析的研究现状和图文融合情感分析的研究现状。其中,图文融合情感分析的研究现状主要从三个模块进行展开,分别为特征层融合、决策层融合和一致性回归融合,并将各种方法进行数据对比与分析。当前,多模态融合的情感分析逐渐成为情感分析研究者的主要研究方面,具有十分重要的意义。在研究的过程中,许多相关领域的研究都值得借鉴,如:文本挖掘、图像处理、自然语言处理等方法与技术。由于部分技术与方法不够成熟,通过对于相关文献展开的研究与分析,提出了当前图文情感分析存在的问题。针对现有工作的不足,探讨进一步的研究方向:1)更大的数据集与高质量的注释能够有助于提高实验性能;2)使用半监督或者无监督的学习来进行情感分析,减少人工标注的压力;3)建立更完善的图文融合模型,尤其是考虑图文的相关性、异性、一致性;4)能够分析更多不同文本语言类型的情感,可以面向更多的图文数据;5)在进行图文情感分析的同时,考虑用户发布内容的时间、地点、用户关系等信息状态。

猜你喜欢

图文模态图像
联合仿真在某车型LGF/PP尾门模态仿真上的应用
画与理
基于老年驾驶人的多模态集成式交互设计研究
浅析p-V图像中的两个疑难问题
巧用图像中的点、线、面解题
模态可精确化方向的含糊性研究
名人语录的极简图像表达
日版《午夜凶铃》多模态隐喻的认知研究
图文配
图文配