APP下载

基于图排序模型的微博观点信息识别*

2018-02-05张绍武刘华丽林鸿飞

计算机与生活 2018年2期
关键词:表情符号观点社交

张绍武,刘华丽,杨 亮,邵 华,林鸿飞

大连理工大学 计算机科学与技术学院,辽宁 大连 116024

1 引言

近几年,随着互联网的飞速发展,在线社交网络媒体逐渐改变着人们的生活。微博、微信等新型社交媒体的出现,使人们从单纯的信息接受者转变为信息的制造者。而微博,作为目前国内主要的在线社交媒体之一,给用户提供了便捷的沟通方式与丰富的信息资讯,而且越来越多的人喜欢在微博上发表自己的观点,与朋友互动交流,因此微博上每时每刻都在产生着蕴含丰富信息的资源。识别微博的观点信息,不仅可以了解个人的观点倾向,还可以分析大众的观点趋势,对个性化推荐、舆情分析等研究提供了必要的基础。

观点识别已经得到国内外学者的广泛研究,并且取得了众多研究成果,但是其主要的研究对象大多是产品或电影评论[1]。微博作为一种实时、快速的观点表达方式,与传统的产品、电影评论不同,主要有以下几个特点:(1)简短、稀疏。传统文本一般有足够多的词可以进行特征选择,从而构建一个特征空间进行分析。而微博受140个中文字符的限制,促使用户的表达更加简短,数据分布更稀疏。(2)省略主题。微博的转发回复功能,使得许多微博省略具体的主题,直接表述观点看法。例如,关于话题“习近平博鳌演讲”的一条微博“说的太对了”,如果直接分析该条微博的观点信息,很难判断其倾向,但是如果找到源微博“习大大演讲得真好”,就会很容易判断此微博的观点倾向。(3)丰富的表情符号。微博丰富的表情符号资源使人们发表微博时更倾向于使用形象生动的表情符号表达自己观点。例如“[哈哈]”、“[失望]”、“[顶]”、“[怒]”等。以上特点使微博的观点信息识别更加复杂,如何更好地挖掘微博的观点信息成为社交媒体数据分析中充满挑战性的任务。

传统的观点识别方法多单纯基于文本的分析方法。然而,微博除了以文本为载体,微博还是一种网络化数据,通过用户间的转发、评论、回复等行为使微博形成一个关系网,使本来看似无关的不同微博通过关系网联系起来。已有研究证明利用这样的关系网络图,结合社交网络中的情感一致理论,可以弥补传统的基于文本分析方法在识别微博观点时的不足[2]。受此启发,本文提出了一种基于图排序模型的微博观点信息识别算法。主要思想是利用微博的网络化数据的特征,构建微博上下文关系图,利用微博的关系信息来补充完善传统的观点识别算法在处理微博短文本时的不足。首先,利用布尔模型表示微博文本的特征向量,并用逻辑回归分类算法为每条微博分配一个伪标签;其次,构建微博上下文关系图;然后,利用受限玻尔兹曼机抽取微博文本的高维特征,利用高维特征向量计算关系图中微博间的权重;最后,基于图排序模型分析微博最终的观点倾向。实验结果表明,本文方法比传统的单纯基于文本的分析方法分析微博观点信息时更有效。

本文的贡献主要有以下三点:(1)提出一种基于表情符号的微博无监督标注方法;(2)利用深度学习算法——受限玻尔兹曼机对微博进行深层特征提取;(3)将图排序模型应用于微博这种短文本语料,进行观点识别。

本文组织结构如下:第2章对相关工作予以介绍;第3章介绍基于图排序模型的微博观点信息识别算法;第4章对实验过程及结果进行分析;第5章进行总结并计划未来工作。

2 相关工作

作为观点识别任务之一,分析微博的观点倾向已经吸引了越来越多的国内外研究者。一些研究者利用传统的观点分析方法来分析微博的观点倾向。其中一类是基于词典的分析方法[3]。Kiritchenko等人[4]基于表情符号和包含情感的主题标签构建情感词典,然后结合词典相关的特征以及一些其他特征训练情感分类系统,最后在SemEval-2013评测任务中取得第一名的成绩,证明了该方法的有效性。另外,Thelwall等人[5]将基于词典并结合语言信息和规则的分类算法SentiStrength[6]应用于社交网络文本,其中包括Twitter、Youtobe等数据,实验证明了Senti-Strength算法在分析多种不同的社交网络文本时的有效性和鲁棒性。另外一类被广泛使用的方法是机器学习相关算法。Liu等人[7]首先基于人工标注的数据训练一个语言模型,然后利用表情符号数据对该语言模型进行平滑,将标注数据与表情符号数据整合到同一个概率框架中,实现了微博的情感分析。

由于微博属于社交网络平台,除了文本内容,还包括丰富的非文本数据,比如用户之间的关注关系,微博之间的转发、回复关系数据等。而以上分析方法仅仅基于微博文本的内容,并没有利用非文本数据。目前已有不少学者在这方面进行了研究。Hu等人[2]首先分析了社交关系数据是否对tweet的情感分类有利,然后基于社交网络中的情感一致与情绪传染理论抽取tweet间的情感关系并对关系进行建模,最后利用这些情感关系数据来弥补传统情感分析方法在处理不规则、噪音大的tweet数据时的不足。Tan等人[8]基于具有关注关系的两个用户很可能持有相同观点的思想,提出将社交关系数据应用于用户级的情感分析任务中,最终实验表明社交关系信息确实比仅仅基于文本内容的SVM(support vector machine)方法效果更好。以上研究不仅利用了文本数据,同时充分利用了非文本数据,从不同的角度对微博这类短文本进行分析,并且都取得了不错的效果。受以上工作的启发,本文利用微博的上下文关系构建微博关系图,结合图排序模型,实现了对微博的观点信息识别。

3 基于图排序模型的微博观点信息识别算法

本算法过程主要分四部分进行介绍:首先介绍基于表情符号的无监督标注方法,以此来对训练集进行扩充;其次介绍如何构建微博上下文关系图;然后介绍如何利用受限玻尔兹曼机抽取微博文本信息中的高维特征;最后介绍如何基于图排序模型对微博观点信息进行识别。

3.1 基于表情符号的无监督标注方法

正如前文所述,丰富的表情符号是微博的几个重要特点之一。特别是在年轻用户当中,表情符号更加受欢迎。主要原因在于:表情符号形象生动,具有明显的观点倾向,可以提供一个直接的方式去表达用语言无法准确表达的情绪状态。已有研究表明[9],表情符号可以传递强烈的情感,可以表达用户真实的情感。如果能够有效利用表情符号对微博进行观点倾向标注,可以大幅降低语料标注的时间、人工成本。目前,已有研究者[10]利用表情符号标注微博的情感倾向来获取标注训练集。受此启发,为了扩充训练集,本文提出一种基于表情符号的无监督标注方法。

由于新浪微博提供的表情符号众多,有些表情符号有明显的观点倾向,但是有些表情符号的观点倾向则不明显,而且不同的人对其表达的观点信息持有不同的看法。针对此问题,本文首先统计出现在语料中的所有表情符号,人工选择170个带有明显观点倾向的表情符号。其中100个代表正向观点,63个代表负向观点,7个代表中性观点,表1给出了每种观点倾向的代表性表情符号。

Table 1 Typical emotions in each opinion class表1 每一个观点类别的典型表情符号

如果一条微博中只有一个表情符号,则直接通过此表情符号来决定该条微博的观点倾向。但是如果同一条微博中有多个表情符号,本文通过以下规则来确定微博的观点倾向:

(1)如果多个表情符号的观点倾向一致,则将共同的观点倾向作为该条微博的观点倾向。

(2)如果多个表情符号的观点倾向不一致,则由投票表决的方式来决定该条微博的观点倾向。具体做法:赋予正向观点的表情符号+1权重,赋予负向观点的表情符号-2的权重,中性观点的表情符号权重为0。通过此规则,获取了额外的标注训练集。

3.2 基于上下文构建微博关系图的方法

由引言可知,由于微博具有简短、稀疏、省略上下文等特点,仅仅基于微博文本分析微博观点倾向并不能取得理想的结果。然而微博作为社交网络数据,除了基本的文本数据外,还有丰富的关系数据,因此接下来介绍构建微博上下文关系图的具体过程。本文主要基于两种关系作为微博的上下文关系,以此来构建微博上下文关系图。

(1)转发关系。转发在微博中是一种很普遍的行为,相较于回复、评论行为,转发行为更能体现对原始微博观点的认同态度。即使不赞同原始微博的观点,依然可以对原始微博进行评论,但这种情况下很少转发。因此基于转发关系联系起来的转发微博与原始微博的观点信息更有可能是一致的,这在Jiang等人[11]的研究中已经有所体现。

(2)同一用户发布的微博。已有研究者证明在社交网络中存在情感一致理论[12]。情感一致理论揭示了这样一个现象:比起随机的两条微博,被同一用户发表的两条不同微博的观点更有可能是一致的。而且尽管同一用户对不同的事件所持有的态度不同,但是对于同一个事件的观点基本是不变的。因此,同一用户针对同一个事件发表的不同微博所表达的观点信息基本是一致的。

基于以上两种关系,构建微博的上下文关系图,如图1所示。

Fig.1 Acontext relationship graph of a Weibo图1 微博上下文关系图

图1中,笑脸图案代表同一个人发布的不同微博,其中粗线条的笑脸为待预测观点的微博,称为“中心微博”;其他细线条的笑脸代表已有观点标签的微博;云图代表从虚线连接的原始微博转发的微博。wi表示由实线或虚线连接的两条微博的相似度。实线连接同一个人发布的不同微博,虚线连接转发微博与原始微博。在整个上下文关系图中,除了“中心微博”,其他微博都被称为“邻居微博”。

构建好微博的上下文关系图后,利用“邻居微博”的准确标签或者伪标签,对“中心微博”的观点信息进行分析。具体采用式(1)和式(2)计算“中心微博”的观点。

其中,m表示“中心微博”,即待预测微博;ym表示为m分配的观点倾向;G表示m的上下文关系图;mi代表图G中除微博m外的其他所有微博,即“邻居微博”;li代表从微博mi到微博m的路径;I(*)是指示函数,当且仅当括号内条件成立时值为1,否则为0。

3.3 基于受限玻尔兹曼机抽取微博高维特征的方法

由3.2节可知,计算微博的观点倾向,必须先计算“中心微博”与其“邻居微博”间的相似度。本文采用的是基于布尔模型的文档向量表示方法。如果某个特征词出现在文档中,则在对应的维度上的权重为1,否则为0。由于微博简短、稀疏的特点,两个明明互为上下文的微博却因没有公共的特征而使两者的相似度为0,那么即使构建了上下文关系图,上下文关系并没有被充分利用。比如:原始微博“这个人的演技太烂了”,转发微博“同感!”,这两条微博虽然没有公共的特征词,但两者相关,而且观点倾向一致。因此,在计算相似度时不能因为二者没有公共的特征而将两者的相似度设为0。为了解决此问题,本文提出一种基于受限玻尔兹曼机算法抽取微博的高维特征表示方法。

特征工程一直是处理数据挖掘的核心问题。之前很多研究都是基于文本内容人工构造一些浅层特征,利用这些浅层特征来表示文本,这种做法的一个缺点在于文本深层的特征或模式不能被很好地利用。近几年,随着深度学习在文本挖掘方面的广泛应用,其在发掘文本深层次的特征方面已经表现出了足够的优势,成为研究者们关注的焦点。因此本文利用受限玻尔兹曼机对微博抽取深层次高维特征,来更好地表示微博。

受限玻尔兹曼机(restricted Boltzmann machine,RBM)[13]是Smolensky于1986年基于玻尔兹曼机提出的一种采用随机神经网络进行解释的概率图模型。RBM的网络结构如图2所示。

Fig.2 Structure of RBM图2 RBM网络结构图

RBM网络结构由两层组成:下面一层为可视层,也就是输入层;上面一层为隐藏层,一般也称为特征提取层。其中Wm×n是可视层与隐藏层之间全连接的权重参数,另外可视层的偏移量为b=(b1,b2,…,bn),隐藏层的偏移量为c=(c1,c2,…,cm)。这些参数决定了网络如何将一个n维的样本编码成一个m维的样本,这也是RBM模型的主要用途之一。因此,本文利用RBM网络对数据进行编码,抽取深层特征,然后利用监督学习等算法进行分类或回归。

其中,vi和hj分别表示可见层的第i个神经元和隐藏层的第j个神经元的状态。假设RBM网络的参数已经被优化到最优解,那么根据输入vi和式(3),隐藏层中各神经元的状态通过采样获得。反之,如果已知网络参数和隐藏层,则可视层易被重构。因此,如何优化网络参数是十分关键的。

众所周知,RBM是一个能量模型,而能量又与概率紧密相连,因此RBM网络通过最小化能量函数,等价于进行极大似然估计,以此来更新网络参数,达到优化目标函数的目的。能量函数具体如式(4)所示:

通过最小化能量函数得到网络的参数。优化方法采用的是Hinton提出来的对比散度(contrastive divergence,CD-k)算法[14]。与Gibbs采样不同,CD-k算法使用训练样本初始化v0,这样仅需要较少的抽样步骤,一般一步就可以得到足够好的近似。

这样便可利用对比散度算法对目标函数进行优化,得到相应的网络参数,根据式(3)计算隐藏层的每个神经元的激活概率,即得到每个输入文本向量的高维特征表示。由于每一维的权重对应隐藏层神经元的激活概率,这不仅解决了前面提到的“布尔模型表示的微博向量由于没有公共特征词导致明明互为上下文有很大联系的两条微博的相似度却为0”的问题,而且利用RBM模型抽取的特征表示微博在一定程度上更能反映微博的内在结构。

3.4 基于图排序模型识别微博观点信息算法

本文利用图排序模型的主要算法思想为邻域思想:如果一条微博与一些具有正向(负向、中性)的观点的微博互为上下文,那么该微博的观点很有可能为正向(负向、中性)。因此,基于图排序模型的微博观点信息识别算法过程如下所示。和式(2)迭代更新微博观点倾向直至收敛。

其中本文所用的基础分类器逻辑回归使用L1正则化,这样保证了得到的解的稀疏性。

4 实验与分析

4.1 数据集与预处理

本文所用的数据来自COAE2015中文评测任务2.1发布的语料,总共约15 000条微博,共分为51个主题,每条微博包括用户名、所属主题号、文档号、线程号、父节点号、孩子节点号、微博内容及对应的标签。其中训练集有对应的观点倾向标签,但测试集没有。数据的预处理过程如下所示。

预处理流程说明:由于微博语言的自由随意性使得在普通文本中没有实际意义的词或短语有可能在微博中带有某种观点倾向,在本次预处理中并未对停用词进行过滤。

4.2 实验设置

预处理工作之后,本文根据基于图排序模型的微博观点信息识别算法的具体流程对语料进行处理与分析。

此外,为了验证Logistic Regression算法在处理微博等稀疏文本时的有效性,本文另设置了一组利用SVM作为分类器算法的对比实验,特征权重计算方法采用TF-IDF,特征选择采用信息增益。实验过程中采取5倍交叉验证。另外,使用Lib-SVM[15]作为分类工具,核函数使用线性核,其他参数设置为默认值。

为了进一步验证使用表情符号标注训练集是否能提高模型效果,还设置一组加入表情符号标注的微博作为训练集,利用Logistic Regression作为分类器进行对比实验,目标函数使用L1正则化项。

4.3 实验结果分析

在整个数据集上,本文算法的实验结果如表2所示。从表2中可以看出,与其他单位所提交的12个模型相比,本文算法无论是整体的准确率,还是整体的F值,都是最高的,这表明本文算法在微博观点信息识别问题上的有效性。

此外对于每一种观点类别,本文算法在精确率和召回率上都表现相对平衡,说明了算法更加稳定,有比较强的鲁棒性。

分析可能的原因,主要有以下三点:

(1)引入了基于表情符号的方法增加训练集,使得在训练过程中分类器可以学习到更多的知识,基于上述方式训练得到的每条微博的伪标签具有更高的置信度。该部分工作为后续基于图排序模型来迭代更新微博观点倾向打下了坚实的基础;同时也说明了本文基于表情符号的无监督的标注方法在微博数据集上的有效性。

(2)构建了微博的上下文关系图,利用其“邻居微博”的标签来迭代更新,该方法不仅利用了文本数据的信息,同时利用了社交网络中的关系式数据的信息。实验表明,这样的上下文关系信息对判断极其稀疏的微博数据有着至关重要的作用。

Table 2 Result comparison of different methods表2 各个方法的结果比较

(3)本文运用RBM抽取微博的高维特征表示,既解决了具有上下文关系的微博相似度可能为0的问题,也为计算微博间的相似度提供了更丰富的特征,因此实验结果相对更精确,算法相对于对比方法更为鲁棒。

对于LR+算法,虽然与最好效果有一定差距,但是与提交的所有结果的平均值Median相比,整体准确率高出3.2%,整体F值高出均值5.2%,说明该算法有一定的优势。究其原因:一方面,加入L1正则项的逻辑回归保证了解的稀疏性,这在处理微博这样的稀疏数据可能更加有效;另一方面,本文算法所使用的训练集加入了利用表情符号标注的部分微博数据,更多的训练数据给算法提供更多的知识,学习的模型泛化能力相对更强一些。

而对于SVM算法,在此数据集上的效果并不理想,整体的准确率和F值都没有达到平均水平。分析原因,有以下两点:(1)数据比较稀疏,SVM在处理稀疏数据上并不能保持其足够的优势;(2)在进行特征选择的过程中,可能丢掉了一些带有强烈情感倾向的特征词。同时这也说明,对于处理微博这种比较稀疏的数据,保留其完整的特征可能对分析更加有利。

综上可知,对于微博等社交网络中的数据,除了文本信息之外,充分利用其特有的关系数据来辅助进行观点信息识别,在一定程度上可以弥补传统的文本观点分析方法在处理微博这类短文本数据观点分析上的不足。

5 结束语

本文提出了一种基于图排序模型的微博观点信息识别算法。首先对于给定的训练数据,为了减少人工标注数据的代价,利用微博含有丰富的表情符号资源来标注部分微博数据;然后利用逻辑回归训练模型,对测试集进行分类,得到微博的伪标签;最后通过构建微博上下文关系图,基于图排序的思想对微博的观点信息进行分析,从而实现了基于上下文知识的微博观点信息识别。实验结果表明,本文算法可以有效地实现微博观点信息的识别。本文主要基于微博间的关系构建微博上下文关系图,而微博中的网络关系数据不仅仅有微博间的关系,还有用户之间的相互关注关系等,如何更好地利用其他关系数据对微博进行观点信息识别,也是未来工作的一个研究方向。

[1]Pang Bo,Lee L.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval,2008,2(1/2):1-135.

[2]Hu Xia,Tang Lei,Tang Jiliang,et al.Exploiting social relations for sentiment analysis in microblogging[C]//Proceedings of the 6th International Conference on Web Search and Data Mining,Rome,Feb 4-8,2013.New York:ACM,2013:537-546.

[3]Tang Duyu,Wei Furu,Qin Bing,et al.Building large-scale twitter-specific sentiment lexicon:a representation learning approach[C]//Proceedings of the 25th International Conference on Computational Linguistics,Dublin,Aug 23-39,2014.Stroudsburg:ACL,2014:172-182.

[4]Kiritchenko S,Zhu Xiaodan,Mohammad S M.Sentiment analysis of short informal texts[J].Journal of Artificial Intelligence Research,2014,50:723-762.

[5]Thelwall M,Buckley K,Paltoglou G.Sentiment strength detection for the social Web[J].Journal of the American Society for Information Science and Technology,2012,63(1):163-173.

[6]Thelwall M,Buckley K,Paltoglou G,et al.Sentiment strength detection in short informal text[J].Journal of the American Society for Information Science and Technology,2010,61(12):2544-2558.

[7]Liu Kunlin,Li Wujun,Guo Minyi.Emoticon smoothed language models for twitter sentiment analysis[C]//Proceedings of the 26th AAAI Conference on Artificial Intelligence,Toronto,Jul 22-26,2012.Menlo Park:AAAI,2012:1-7.

[8]Tan Chenhao,Lee L,Tang Jie,et al.User-level sentiment analysis incorporating social networks[C]//Proceedings of the 17th International Conference on Knowledge Discovery and Data Mining,San Diego,Aug 21-24,2011.New York:ACM,2011:1397-1405.

[9]Aoki S,Uchida O.A method for automatically generating the emotional vectors of emoticons using weblog articles[C]//Proceedings of the 10th International Conference on Applied Computer and Applied Computational Science,Venice,Mar 8-10,2011.Stevens Point:WSEAS,2011:132-136.

[10]Zhao Jichang,Dong Li,Wu Junjie,et al.Moodlens:an emoticon-based sentiment analysis system for Chinese tweets[C]//Proceedings of the 18th International Conference on Knowledge Discovery and Data Mining,Beijing,Aug 12-16,2012.New York:ACM,2012:1528-1531.

[11]Jiang Long,Yu Mo,Zhou Ming,et al.Target-dependent twitter sentiment classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies,Portland,Jun 19-24,2011.Stroudsburg:ACL,2011:151-160.

[12]Abelson R P.Whatever became of consistency theory?[J].Personality and Social Psychology Bulletin,1983,9(1):37-64.

[13]Smolensky P.Information processing in dynamical systems:foundations of harmony theory[M]//Parallel Distributed Processing:Explorations in the Microstructure of Cognition.Cambridge:MIT Press,1986:194-281.

[14]Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1771-1800.

[15]Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):27.

猜你喜欢

表情符号观点社交
微信表情符号写入判决:你发的每个表情都可能成为呈堂证供
社交牛人症该怎么治
聪明人 往往很少社交
世界表情符号日
社交距离
你回避社交,真不是因为内向
观点
这个表情符号,你用对了吗
表情符号玩上瘾 时尚爱尝鲜
业内观点