基于句法结构的评价对象抽取方法在不同模板上的性能分析

2017-06-06杨云

长春教育学院学报 2017年4期

杨云

杨云

文本情感分析是自然语言处理领域的一个重要研究课题，主要是对网络上的主观性文本信息(如评论，微博等)进行处理。评价对象抽取是文本情感分析的重要组成部分，目的是抽取出主观性文本中每句话所描述的实体及其属性，以便为情感分析的其他任务提供帮助。本文通过深入分析经预处理后句子的句法结构，在已有特征上加入了三种特征，并分析在不同窗口大小下的模板性能，选择性能最佳的模板以抽取更为准确的评价对象。

句法结构；情感分析；评价对象；模板

一、相关知识介绍

文本情感分析[1]亦称评论挖掘，是把有情感色彩的主观性文本进行分析、处理和归纳的过程，是一个重要且有应用价值的研究课题[2]。评价对象抽取[3][4][5]即抽取出该主观句中所表达的中心思想，也就是说，抽取出该句中所表明的主题，如句子“昨天在京东买了一款手机，它的像素还不错”中所要抽取的评价对象是“像素”。

本文选用CRF模型的实现CRF++0.53工具包(http://taku910.github.io/crfpp/网站可供下载)作为序列标记工具，用于标记并识别评价对象。该工具的核心文件为crf_learn.exe与crf_test.exe，分别用于训练与识别。用于评价对象抽取的识别过程，是将特征提取后的结果与相应的模板(根据需要自行定义)输入到crf_learn.exe中训练，则会自动生成模型(model)；利用crf_test.exe文件，通过上步生成的model进行标记；最后将标记为评价对象(B-tgt)的特征抽取出即可。

句法分析是指分析句中的词与词之间的某种依存关系，即反映该句的句法结构信息。在文本情感分析领域中，它主要针对主观性文本进行句法分析。现有的句法分析工具主要有斯坦福大学开发的Parser，McDonald的MSTParser及哈尔滨工业大学开发的语言技术平台——LTP。本文选用斯坦福的Parser进行句法分析。在使用句法分析工具之前，应先对原始语料进行分词处理，再把分词后的结果输入到句法分析工具中，得到分析结果。

为验证算法的有效性，本文选用信息检索领域常用的评价指标P、R、F作为评价对象抽取效果的验证指标，具体的如公式1、2和3所示。

其中，P：准确率，指识别正确的评价对象与系统检索出的评价对象的比值；R：召回率，指识别正确的评价对象与实际正确的评价对象的比值；F：F值，指准确率与召回率的调和平均值。

另外，为进一步减少实验的误差，本文选用k折交叉验证的方式来确定最终的实验性能。将特征提取的结果随机分成k份，随机选取其中的k-1份作为训练数据，剩下的1份作为测试数据；将k-1份训练数据训练成模型，再用模型来识别测试数据；以上过程重复k次来确保结果更加精准。对于k的取值，本文将k设为10。理论上折数越大测试的系统性能越准确，当折数达到十折，已足以让系统性能达到最优。因此，本文采用十折交叉验证的方式来验证系统性能的准确性。

要想更为准确地抽取评价对象，选取窗口大小适宜的模板尤为重要。对此，本文在7种窗口大小的模板上进行了实验与验证。

二、模板定义

模板反映了每句评论句中词间的上下文信息。模板的选取对于实验的特征选取起着关键作用。模板用于控制词之间的窗口大小，窗口过小，所包含信息过少，特征利用不全面，导致系统性能降低；窗口过大，引入了过多的信息，降低了运行效率，实验效果也未必提高。

定义：大小为2n+1的窗口：(w-n,w-(n-1),…,w0,…,wn-1,wn)。代表以当前词为中心，把窗口大小设定为前后各n个词语。

本文采用该定义方法来定义模板，模板的大小用于限定组成评价对象的词语的数量，为探索性能最佳的模板，本文将探讨当窗口大小为2—7的系统性能变化。因为评价对象由单个词或词组组成，评价对象的长度一般都不超过2，因此探讨评价对象长度在3以内的系统性能变化，即窗口大小为2—7。

本文将模板定义成三类，以当前词为中心，考虑当前词的前后各一个词、各两个词和各三个词。具体定义如下：

1.模板一可分以下三种情况：

tmp1-=(-1，0)表示以当前词为中心，考虑当前词的前一个词，即窗口大小为2。

tmp1=(-1，0，1)表示以当前词为中心，考虑当前词的前、后各一个词，即窗口大小为3。

tmp1+=(0，1)表示以当前词为中心，考虑当前词的后一个词，即窗口大小为2。

其中，tmp1-与tmp1+主要反映了模板的非对称性，将用实验来验证模板一中的三个模板的性能。

2.模板二的定义：

tmp2-=(-2，-1，0)表示以当前词为中心，考虑当前词的前两个词，即窗口大小为3。

tmp2=(-2，-1，0，1，2)表示以当前词为中心，考虑当前词的前、后各两个词，即窗口大小为5。

tmp2+=(0，1，2)表示以当前词为中心，考虑当前词的后两个词，即窗口大小为3。

其中，tmp2-与tmp2+同样是非对称模板。

3.模板三的定义：

tmp3=(-3，-2，-1，0，1，2，3)表示以当前词为中心，考虑当前词的前、后各三个词，即窗口大小为7。由于评论中的言语一般比较简洁，很少有长度超过7的评价对象，因此，这里就只验证对称模板这种形式。

以tmp1模板、tmp2模板与tmp3模板为例，具体的定义如表1、表2及表3所示。依此类推。

表1 tmp1模板定义

表2 tmp2模板定义

表3 tmp3模板定义

以上是对tmp1模板、tmp2模板与tmp3模板的定义，tmp1-、tmp1+、tmp2-、tmp2+的定义与其类似。

三、实验设置

本文的对比实验采用Jakob[6]的方法，因此选用了与其相同的数据集，对三个数据集进行了实验。选用了DarmstadtServiceReviewCorpus(DSRC)数据集(http://www.ukp.tu-darmstadt.de/data/sentiment-analysis/)的“服务”数据集234篇，“大学”数据集256篇，TheInternetMovieDatabase(IMDb)数据集(http://www.imdb.com/)的“电影”领域的评论1829篇。

本文的对比实验内容主要为Jakob文中的5个特征——已有特征，分别是词特征、词性特征、最短依存路径特征、最短词距离特征和主观句特征。在已有特征的基础上，通过深入分析句子的句法结构，加入了情感词特征、依存关系特征及依存关系词特征，并结合相应的模板来验证特征的选择对评价对象抽取的性能影响。具体的特征定义如下：

特征一：词特征(tk)，指词本身。

特征二：词性特征(pos)，指该词所对应的词性。

特征三：最短依存路径(dLn)，该特征为布尔型特征。用于判断当前词是否是与情感词有直接依存关系的词，若是，则记为1；反之，记为0。

特征四：最短词距离特征(wDs)，该特征为布尔型特征。用于判断当前词是否是与情感词最近的名词，若是，则记为1；反之，记为0。

特征五：主观句特征(sSn)，该特征为布尔型特征。用于判断当前词所在的句子是否是主观句，若是，则记为1；反之，记为0。

特征六：情感词特征(stWord)，该特征为布尔型特征。用于判断当前词是否为情感词，若是，则记为1；反之，记为0。

特征七：依存关系特征(tkRel)，表示与当前词有依存关系的词的依存标签。

特征八：依存关系词特征(rWord)，表示与当前词有直接依存关系的词。

在评价方式上，本文选用信息检索领域常用的评价指标：准确率P、召回率R和F值。

为测试系统性能的准确性，本文选用十折交叉验证的方式，将特征提取后的结果分为十份，随机选取九份作为训练数据并与相应的模板一起输入到CRF模块中训练成模型，用模型来标识一份测试数据，以上过程重复十次，取十次结果的平均值作为最终的评价结果。

四、评价对象抽取在不同模板上的性能分析

本文首先在三个英文数据集上进行了实验，在选取相同特征、相同领域和不同模板的条件下，以选取性能最佳的模板。

在特征选取上，已有特征的组合：词特征、词性特征、最短依存路径特征、最短词距离特征和主观句特征的组合；全部特征的组合：词特征、词性特征、最短依存路径特征、最短词距离特征、主观句特征、情感词特征、依存关系特征和依存关系词特征的组合。

在模板的选取上，在三个领域“服务”“大学”和“电影”的数据集上，分别验证在tmp1-、tmp1、tmp1+、tmp2-、tmp2、tmp2+及tmp3模板上的评价对象抽取性能。具体的性能变化曲线图如图1、2、3所示。

图1 “服务”数据集上模板性能的验证

图2 “大学”数据集上模板性能的验证

其中，X轴代表选用的模板，Y轴代表F值，用于衡量实验的性能。

图3 “电影”数据集上模板性能的验证

从图1、2和3的性能曲线看出，全部特征的性能要优于已有特征；在三个数据集上，tmp1模板的系统性能最好，要优于tmp2与tmp3模板的性能。并且tmp1模板的性能要优于tmp1-与tmp1+模板，即选用窗口大小为(-1,0,1)的性能最好，优于窗口大小为(-1,0)与(0,1)大小的模板；tmp2模板的性能要优于tmp2-与tmp2+模板，即选用窗口大小为(-2,-1,0,1,2)的性能最好，优于窗口大小为(-2,-1,0)与(0,1,2)大小的模板。由此验证了对称模板的性能要优于非对称模板，且考虑当前词的前后各一个词的模板(tmp1模板)能够取得更好的性能。

以上三组实验均是以特征和领域为不变量，模板为变量进行的实验，tmp1模板的性能要优于其他模板，tmp1模板的窗口为(-1,0,1)，是以当前词为中心，同时考虑当前词的前后各一个词，即评价对象的长度在3以内；而在网络评论中，有一些特殊的评价对象的长度大于3，这样的评价对象可由tmp3模板(窗口大小为7)获取到，但大多数评价对象的长度不会超过7，因此，窗口过大可能会引入不相关的词语，同时也会降低系统的运行效率与性能。

为准确有效地抽取评价对象，本文在不同模板上进行了性能分析，以当前词为中心，考虑当前词前后各3个词的7种窗口大小的模板，经实验验证了窗口大小为3的模板抽取评价对象的效果最好，即考虑当前词及当前词前后各1个词。

在今后的后续研究中，继续探索更为有效的特征以提高评价对象识别的精度，为情感分析的上层任务服务；面对中文评论的不规范性和复杂性，将引入语义因素，根据上下文语义来识别评价对象；也可考虑评论相关度[7]，获取更多有用的信息，并探索适合中文的自然语言处理工具，以减少由分词、词性标注、句法分析错误而带来的误差，将成为下一步工作的努力方向。

[1]赵妍妍，秦兵，刘挺.文本情感分析[J].软件学报，2010(8)．

[2]KesslerJ，NicolovN．TargetingSentimentExpressionsthroughSupervisedRankingofLinguisticConfigurations[C]．Proc．oftheThirdInternationalAAAIConferenceonWeblogsandSocialMedia．2009．90-97．

[3]YangB，CardieC．JointInferenceforFine-grainedOpinionExtraction[C].Proc.ofACL.2013．

[4]WilsonT，HoffmannP，SomasundaranS.Opinionfinder：ASystemforSubjectivityAnalysis[C].Proc.ofHLT/EMNLP.2005.34-35．

[5]LinW，WilsonT，WiebeJ．WhichSideAreYouOn?IdentifyingPerspectivesattheDocumentandSentenceLevels[C]．Proc．oftheTenthConferenceonComputationalNaturalLanguageLearning(Coling)．USA：AssociationforComputationalLinguistics，2006．109-116．

[6]JakobN，GurevychI．ExtractingOpinionTargetsinaSingleandCross-DomainSettingwithConditionalRandomFields[C].Proc.ofthe2010ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).USA：AssociationforComputationalLinguistics，2010.1035-1045．

[7]WangJ，YanZ．Anapproachtorankreviewsbyfusingandminingopinionbasedonreviewpertinence[J].InformationFusion，2015：3-15．

责任编辑：郭一鹤

TP181

1671-6531（2017）04-0038-04

杨云/长春教育学院信息技术教育部助教，硕士（吉林长春130061）。