APP下载

基于句法结构的评价对象抽取方法在不同模板上的性能分析

2017-06-06杨云

长春教育学院学报 2017年4期
关键词:定义对象模板

杨云

基于句法结构的评价对象抽取方法在不同模板上的性能分析

杨云

文本情感分析是自然语言处理领域的一个重要研究课题,主要是对网络上的主观性文本信息(如评论,微博等)进行处理。评价对象抽取是文本情感分析的重要组成部分,目的是抽取出主观性文本中每句话所描述的实体及其属性,以便为情感分析的其他任务提供帮助。本文通过深入分析经预处理后句子的句法结构,在已有特征上加入了三种特征,并分析在不同窗口大小下的模板性能,选择性能最佳的模板以抽取更为准确的评价对象。

句法结构;情感分析;评价对象;模板

一、相关知识介绍

文本情感分析[1]亦称评论挖掘,是把有情感色彩的主观性文本进行分析、处理和归纳的过程,是一个重要且有应用价值的研究课题[2]。评价对象抽取[3][4][5]即抽取出该主观句中所表达的中心思想,也就是说,抽取出该句中所表明的主题,如句子“昨天在京东买了一款手机,它的像素还不错”中所要抽取的评价对象是“像素”。

本文选用CRF模型的实现CRF++0.53工具包(http://taku910.github.io/crfpp/网站可供下载)作为序列标记工具,用于标记并识别评价对象。该工具的核心文件为crf_learn.exe与crf_test.exe,分别用于训练与识别。用于评价对象抽取的识别过程,是将特征提取后的结果与相应的模板(根据需要自行定义)输入到crf_learn.exe中训练,则会自动生成模型(model);利用crf_test.exe文件,通过上步生成的model进行标记;最后将标记为评价对象(B-tgt)的特征抽取出即可。

句法分析是指分析句中的词与词之间的某种依存关系,即反映该句的句法结构信息。在文本情感分析领域中,它主要针对主观性文本进行句法分析。现有的句法分析工具主要有斯坦福大学开发的Parser,McDonald的MSTParser及哈尔滨工业大学开发的语言技术平台——LTP。本文选用斯坦福的Parser进行句法分析。在使用句法分析工具之前,应先对原始语料进行分词处理,再把分词后的结果输入到句法分析工具中,得到分析结果。

为验证算法的有效性,本文选用信息检索领域常用的评价指标P、R、F作为评价对象抽取效果的验证指标,具体的如公式1、2和3所示。

其中,P:准确率,指识别正确的评价对象与系统检索出的评价对象的比值;R:召回率,指识别正确的评价对象与实际正确的评价对象的比值;F:F值,指准确率与召回率的调和平均值。

另外,为进一步减少实验的误差,本文选用k折交叉验证的方式来确定最终的实验性能。将特征提取的结果随机分成k份,随机选取其中的k-1份作为训练数据,剩下的1份作为测试数据;将k-1份训练数据训练成模型,再用模型来识别测试数据;以上过程重复k次来确保结果更加精准。对于k的取值,本文将k设为10。理论上折数越大测试的系统性能越准确,当折数达到十折,已足以让系统性能达到最优。因此,本文采用十折交叉验证的方式来验证系统性能的准确性。

要想更为准确地抽取评价对象,选取窗口大小适宜的模板尤为重要。对此,本文在7种窗口大小的模板上进行了实验与验证。

二、模板定义

模板反映了每句评论句中词间的上下文信息。模板的选取对于实验的特征选取起着关键作用。模板用于控制词之间的窗口大小,窗口过小,所包含信息过少,特征利用不全面,导致系统性能降低;窗口过大,引入了过多的信息,降低了运行效率,实验效果也未必提高。

定义:大小为2n+1的窗口:(w-n,w-(n-1),…,w0,…,wn-1,wn)。代表以当前词为中心,把窗口大小设定为前后各n个词语。

本文采用该定义方法来定义模板,模板的大小用于限定组成评价对象的词语的数量,为探索性能最佳的模板,本文将探讨当窗口大小为2—7的系统性能变化。因为评价对象由单个词或词组组成,评价对象的长度一般都不超过2,因此探讨评价对象长度在3以内的系统性能变化,即窗口大小为2—7。

本文将模板定义成三类,以当前词为中心,考虑当前词的前后各一个词、各两个词和各三个词。具体定义如下:

1.模板一可分以下三种情况:

tmp1-=(-1,0)表示以当前词为中心,考虑当前词的前一个词,即窗口大小为2。

tmp1=(-1,0,1)表示以当前词为中心,考虑当前词的前、后各一个词,即窗口大小为3。

tmp1+=(0,1)表示以当前词为中心,考虑当前词的后一个词,即窗口大小为2。

其中,tmp1-与tmp1+主要反映了模板的非对称性,将用实验来验证模板一中的三个模板的性能。

2.模板二的定义:

tmp2-=(-2,-1,0)表示以当前词为中心,考虑当前词的前两个词,即窗口大小为3。

tmp2=(-2,-1,0,1,2)表示以当前词为中心,考虑当前词的前、后各两个词,即窗口大小为5。

tmp2+=(0,1,2)表示以当前词为中心,考虑当前词的后两个词,即窗口大小为3。

其中,tmp2-与tmp2+同样是非对称模板。

3.模板三的定义:

tmp3=(-3,-2,-1,0,1,2,3)表示以当前词为中心,考虑当前词的前、后各三个词,即窗口大小为7。由于评论中的言语一般比较简洁,很少有长度超过7的评价对象,因此,这里就只验证对称模板这种形式。

以tmp1模板、tmp2模板与tmp3模板为例,具体的定义如表1、表2及表3所示。依此类推。

表1 tmp1模板定义

表2 tmp2模板定义

表3 tmp3模板定义

以上是对tmp1模板、tmp2模板与tmp3模板的定义,tmp1-、tmp1+、tmp2-、tmp2+的定义与其类似。

三、实验设置

本文的对比实验采用Jakob[6]的方法,因此选用了与其相同的数据集,对三个数据集进行了实验。选用了DarmstadtServiceReviewCorpus(DSRC)数据集(http://www.ukp.tu-darmstadt.de/data/sentiment-analysis/)的“服务”数据集234篇,“大学”数据集256篇,TheInternetMovieDatabase(IMDb)数据集(http://www.imdb.com/)的“电影”领域的评论1829篇。

本文的对比实验内容主要为Jakob文中的5个特征——已有特征,分别是词特征、词性特征、最短依存路径特征、最短词距离特征和主观句特征。在已有特征的基础上,通过深入分析句子的句法结构,加入了情感词特征、依存关系特征及依存关系词特征,并结合相应的模板来验证特征的选择对评价对象抽取的性能影响。具体的特征定义如下:

特征一:词特征(tk),指词本身。

特征二:词性特征(pos),指该词所对应的词性。

特征三:最短依存路径(dLn),该特征为布尔型特征。用于判断当前词是否是与情感词有直接依存关系的词,若是,则记为1;反之,记为0。

特征四:最短词距离特征(wDs),该特征为布尔型特征。用于判断当前词是否是与情感词最近的名词,若是,则记为1;反之,记为0。

特征五:主观句特征(sSn),该特征为布尔型特征。用于判断当前词所在的句子是否是主观句,若是,则记为1;反之,记为0。

特征六:情感词特征(stWord),该特征为布尔型特征。用于判断当前词是否为情感词,若是,则记为1;反之,记为0。

特征七:依存关系特征(tkRel),表示与当前词有依存关系的词的依存标签。

特征八:依存关系词特征(rWord),表示与当前词有直接依存关系的词。

在评价方式上,本文选用信息检索领域常用的评价指标:准确率P、召回率R和F值。

为测试系统性能的准确性,本文选用十折交叉验证的方式,将特征提取后的结果分为十份,随机选取九份作为训练数据并与相应的模板一起输入到CRF模块中训练成模型,用模型来标识一份测试数据,以上过程重复十次,取十次结果的平均值作为最终的评价结果。

四、评价对象抽取在不同模板上的性能分析

本文首先在三个英文数据集上进行了实验,在选取相同特征、相同领域和不同模板的条件下,以选取性能最佳的模板。

在特征选取上,已有特征的组合:词特征、词性特征、最短依存路径特征、最短词距离特征和主观句特征的组合;全部特征的组合:词特征、词性特征、最短依存路径特征、最短词距离特征、主观句特征、情感词特征、依存关系特征和依存关系词特征的组合。

在模板的选取上,在三个领域“服务”“大学”和“电影”的数据集上,分别验证在tmp1-、tmp1、tmp1+、tmp2-、tmp2、tmp2+及tmp3模板上的评价对象抽取性能。具体的性能变化曲线图如图1、2、3所示。

图1 “服务”数据集上模板性能的验证

图2 “大学”数据集上模板性能的验证

其中,X轴代表选用的模板,Y轴代表F值,用于衡量实验的性能。

图3 “电影”数据集上模板性能的验证

从图1、2和3的性能曲线看出,全部特征的性能要优于已有特征;在三个数据集上,tmp1模板的系统性能最好,要优于tmp2与tmp3模板的性能。并且tmp1模板的性能要优于tmp1-与tmp1+模板,即选用窗口大小为(-1,0,1)的性能最好,优于窗口大小为(-1,0)与(0,1)大小的模板;tmp2模板的性能要优于tmp2-与tmp2+模板,即选用窗口大小为(-2,-1,0,1,2)的性能最好,优于窗口大小为(-2,-1,0)与(0,1,2)大小的模板。由此验证了对称模板的性能要优于非对称模板,且考虑当前词的前后各一个词的模板(tmp1模板)能够取得更好的性能。

以上三组实验均是以特征和领域为不变量,模板为变量进行的实验,tmp1模板的性能要优于其他模板,tmp1模板的窗口为(-1,0,1),是以当前词为中心,同时考虑当前词的前后各一个词,即评价对象的长度在3以内;而在网络评论中,有一些特殊的评价对象的长度大于3,这样的评价对象可由tmp3模板(窗口大小为7)获取到,但大多数评价对象的长度不会超过7,因此,窗口过大可能会引入不相关的词语,同时也会降低系统的运行效率与性能。

为准确有效地抽取评价对象,本文在不同模板上进行了性能分析,以当前词为中心,考虑当前词前后各3个词的7种窗口大小的模板,经实验验证了窗口大小为3的模板抽取评价对象的效果最好,即考虑当前词及当前词前后各1个词。

在今后的后续研究中,继续探索更为有效的特征以提高评价对象识别的精度,为情感分析的上层任务服务;面对中文评论的不规范性和复杂性,将引入语义因素,根据上下文语义来识别评价对象;也可考虑评论相关度[7],获取更多有用的信息,并探索适合中文的自然语言处理工具,以减少由分词、词性标注、句法分析错误而带来的误差,将成为下一步工作的努力方向。

[1]赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010(8).

[2]KesslerJ,NicolovN.TargetingSentimentExpressionsthroughSupervisedRankingofLinguisticConfigurations[C].Proc.oftheThirdInternationalAAAIConferenceonWeblogsandSocialMedia.2009.90-97.

[3]YangB,CardieC.JointInferenceforFine-grainedOpinionExtraction[C].Proc.ofACL.2013.

[4]WilsonT,HoffmannP,SomasundaranS.Opinionfinder:ASystemforSubjectivityAnalysis[C].Proc.ofHLT/EMNLP.2005.34-35.

[5]LinW,WilsonT,WiebeJ.WhichSideAreYouOn?IdentifyingPerspectivesattheDocumentandSentenceLevels[C].Proc.oftheTenthConferenceonComputationalNaturalLanguageLearning(Coling).USA:AssociationforComputationalLinguistics,2006.109-116.

[6]JakobN,GurevychI.ExtractingOpinionTargetsinaSingleandCross-DomainSettingwithConditionalRandomFields[C].Proc.ofthe2010ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).USA:AssociationforComputationalLinguistics,2010.1035-1045.

[7]WangJ,YanZ.Anapproachtorankreviewsbyfusingandminingopinionbasedonreviewpertinence[J].InformationFusion,2015:3-15.

责任编辑:郭一鹤

TP181

A

1671-6531(2017)04-0038-04

杨云/长春教育学院信息技术教育部助教,硕士(吉林长春130061)。

猜你喜欢

定义对象模板
铝模板在高层建筑施工中的应用
铝模板在高层建筑施工中的应用
涉税刑事诉讼中的举证责任——以纳税人举证责任为考察对象
攻略对象的心思好难猜
基于熵的快速扫描法的FNEA初始对象的生成方法
成功的定义
区间对象族的可镇定性分析
铝模板在高层建筑施工中的应用
城市综改 可推广的模板较少
修辞学的重大定义